5. 5
Lake House Architecture とは
Lake House Architectureは、DWH(Redshift)からデータレイク
(S3)や運⽤データベース(PostgreSQLやMySQL)のデータを統合して、
分析することでより速くより深い洞察を得るためのアーキテクチャ
Redshift Spectrum
• S3データレイクにオープンフォーマットデータを直接クエリする
Data Lake Export
• S3データレイクにオープンフォーマットデータでエクスポートする
• Athena、EMR、Glue(Spark)、SageMakerにデータの連携する
Federated Query
• AWS環境のPostgreSQLやMySQLに直接クエリする
22. 22
データのロード
Redshift Data API
IoT CoreからKinesis Firehose経由でS3にPUT、そのイベントでLambda Function
を起動してRedshiftにロードする場合、従来だとJDBCドライバ経由でRedshiftに接
続してデータをロードしていました。Redshift Data APIを⽤いれば、JDBCドライ
バ準備不要、Redshiftにインバウンド接続なしでロードできるようになります。
SQLクライアント接続
データマート作成や分析⽤クエリは、従来通りODBC/JDBCドライバや接続クライ
アントを⽤いてSQLを実⾏するのが良いでしょう。
23. 23
データのアンロード(Data Lake Export)
Data Lake Export + SQLによるデータレイクの構築
RedshiftのData Lake Exportを利⽤すると、Glue ETLジョブを使うことなくSQL
だけでデータレイクが構築できます。S3に対してパーティションを指定やカラムナ
ファイル(Parquet)出⼒も可能です。
データはスライスごとに出⼒されるので、必要に応じてPARALLEL OFF指定するこ
とで、パーティション内のファイルを1つのファイルにまとめることが可能です。
さらにRedshift Data APIを⽤いれば、AWSCLIからデータレイクを構築できます。
Concurrency ScalingによるUNLOADのスケーリング
RedshiftのUNLOADリクエストは、 Scaling ClusterにオフロードできるのでMain
Clusterの負荷を気にせず、データレイクが構築できます。