re:Invent 2018 Analytics関連アップデート!
Sapporo.aws
2018年12月6日
クラスメソッド株式会社 石川覚
自己紹介 2
ビックデータ関連のコンサルティング、チューニ
ング、開発支援を中心に活動。
その他、ハンズオンセミナー講師やAWSのホワ
イトペーパー監修、ブログを執筆。
担当はAWS全般、Redshift、Athena、Glue
石川 覚 (いしかわ さとる)
データインテグレーション部
• 新サービス AWS Lake Formation
• アップデート Amazon Redshift
• アップデート AWS Glue
アジェンダ 3
今年から Bigdata を改め、Analytics に変更
今年から Bigdata を改め、Analytics に変更
「大量データをいかに取り扱うか」から
「分析データをいかに取り扱うか」にシフト
新サービス AWS Lake Formation
セキュアなデータレイクを簡単に構築して、モニタリングと監査ができる
なぜデータレイクか? 8
データレイクは
• 構造化データと非構造化データを問わない
• エクサバイト規模にスケール可能
• 多様な分析ツールと機械学習ツールを提供する
• データの移動がなくてもデータを処理できる
• 低コストのストレージと分析用に設計されてい
る
• 様々な分析ワークロードや様々なスケールに対
して、可能な限り低いコストで実行できます。
Amazon Lake Formation の登場 9
従来、データレイク環境を構築するには
• ストレージのセットアップや移動・配置
• クレンジングや準備したデータをデータカタログに登録
• 更にセキュリティやコンプライアンスを設定
• 利用者にデータを使えるようにする
• ETC...
データのクレンジングや準備は作業全体の80%を占め、データレイクの構築
は数カ月を要していました。
そこで、数日でセキュアなデータレイクを構築できるサービス
AWS Lake Formation が登場しました。
AWS Lake Formation 利用の流れ 10
AWS Lake Formation 利用の流れ 11
• データの格納場所の指定
• 適用するデータアクセス定義
• セキュリティポリシー定義
AWS Lake Formation 利用の流れ 12
• クロール
• ETL&準備
• データカタログ登録
• セキュリティ設定
• アクセス制御
AWS Lake Formation 利用の流れ 13
• Athena、Redshift、
EMRからクエリを実行
• ユーザーの権限に基づ
くデータアクセス
Deep Dive - 認証・認可のデータフロー 14
1. ユーザーがクエリを実行する
2. リクエストをLake Formationに送信
3. 一時クレデンシャルが返る
4. 一時クレデンシャルでデータカタログやS3にアクセスする
5. データカタログからメタ情報、S3からデータオブジェクトを取得
AWS Lake Formationを使うには 15
料金
• 追加料金はいただきません。Lake Formation配下で利用しているサー
ビスの利用費のみです。
現在は限定プレビュー
• 利用したい方は以下のリンクから申請してください。
• https://pages.awscloud.com/lake-formation-preview.html
Amazon Redshift
クラウドDWH Redshift の新機能と今後のリリース
Amazon Redshift は re:Invent2017から… 17
Amazon Redshift はこの6ヶ月間で… 18
この6ヶ月間で3倍以上
速くなりました!
Concurrency Scaling (Preview) 20
ユーザーアクティビティのバ
ーストにも対応
• オンデマンドで自動的に
多くのクラスタを作成し
ます
• 何千もの同時クエリでも
一貫して高速なパフォー
マンス
• 事前のクラスタは必要あ
りません
• 予期しない需要変動に対
応します
Concurrency Scaling (Preview) 21
Concurrency Scaling によるス
ループットの向上
• 並行処理のスケーリングは、
Redshiftの顧客の97%以上が
自由です
• メインクラスタが使用されて
いる24時間ごとに、同時実行
スケーリングのために1時間
のクレジットが発生します
Intelligent maintenance 22
• ANALYZEがバックグラ
ウンドで自動実行
• VACUUM DELETEがバ
ックグラウンドで自動
実行
• WLMの自動設定
Amazon Redshift Spectrum のアップデート 23
• UNLOADコマンドでカラムナファイルフォーマット Parquet による
ファイル出力がサポートされます
• Spectrum Request Accelerator (これ以上の情報がありません)
Amazon Redshift の新機能一覧 24
AWS Glue
フルマネージドETLサービスの今後のリリース
新しいジョブタイプ Python Shell のサポート 26
小中規模のタスク向けETL実行環境
• SQLによるETL処理
• S3や3nd パーティサービスとの連携
• MLサービスからPython Shellの起動
Python Shell のスペック 27
Python 2.7 環境で boto3, awscli, numpy, scipy, pandas,
scikit-learn, PyGreSQL, ...が利用できます
初期状態
• 20秒未満で起動
• VPCサポート
• ランタイム制限なし
サイズ
• サイズ:1 DPU(16GBを含む)
• 1 / 16DPU(1GBを含む)
価格
• DPU-hourあたり0.44ドル、最低1分間、1秒あたりの請求
最後に 28
Analyticsにおける re:Invent2018 の大きな変化
• Bigdataカテゴリ から Analyticsカテゴリ へ
• DWH/Redshift から Datalake へ
• Central Storage / Hub Storage としてのS3
• S3, Kinesis > Glue > Athena, Redshift, QuickSight, SageMaker
• データレイクサービス Lake Formation の登場
• Amazon Redshift の著しい進化・深化
ご清聴ありがとうございました

re:invent 2018 analytics関連アップデート