オープンコミュニティ「要求開発アライアンス」(http://www.openthology.org)の2012年12月定例会発表資料です。
Open Community "Requirement Development Alliance" 2012/12 regular meeting of the presentation materials.
In the first half, we give an introduction to modern serialization systems, Protocol Buffers, Apache Thrift and Apache Avro. Which one does meet your needs?
In the second half, we show an example of data ingestion system architecture using Apache Avro.
オープンコミュニティ「要求開発アライアンス」(http://www.openthology.org)の2012年12月定例会発表資料です。
Open Community "Requirement Development Alliance" 2012/12 regular meeting of the presentation materials.
In the first half, we give an introduction to modern serialization systems, Protocol Buffers, Apache Thrift and Apache Avro. Which one does meet your needs?
In the second half, we show an example of data ingestion system architecture using Apache Avro.
Introduction of data analysis related updates released in AWS re:invent2019.
- Amazon Athena
- Amazon Redshift RA3 & AQUA
classmethod,inc re:Growth Sapporo
solution arcitect satoru ishikawa
11. 11
Data Lake
Data Lakeは、あらゆる規模の構造化データおよび⾮構造化
データを 管理、探索、共有、分析できる ⼀元管理された安全
なリポジトリです
• Data Lakeは、データをそのままの形で蓄積する
• Apache Hiveメタストアで構造化データとメタデータの関係を⼀元
管理すると、クエリエンジンによってデータをクエリできる
• Data Lakeは、クエリエンジンや機械学習から利⽤されます
• 機械学習の特徴量エンジニアリングにおいて、そのままの形で蓄積されたデ
ータの⽅が向いている場合があります
13. 13
Data Lakeの課題と解決策
Data Lakeは、DWHのような 分析⼒やトランザクションの
サポート、データ品質の保証がない
• この課題を解決すべく進化した製品やサービスも登場︕
• Apache Hudi
• Databricks Delta Lake
• AWS Lake Formation / Governed tables(Preview)
AWS Lake Formation
(Governed tables)
14. 14
DWHとData Lake の進化 “Lake House”
DWHとData Lakeの両⽅の特⻑を持ち合わせた新しいアーキ
テクチャを Lake House Architecture と呼ぶ
• DWHは、 Data Lakeのようなストレージとコンピューティングを
分離した柔軟かつコスト効率の良いアーキテクチャを採⽤し、デー
タレイク上のデータやOLTPデータベースのライブデータに対して直
接クエリを実⾏してデータ統合できるように進化している
• Data Lakeは、 DWHのようなトランザクションのサポート、デー
タ品質の保証(スキーマバリデーション)、DWHのようにSQLによ
る柔軟なUPSERTが可能
• 実際の Lake House Architecture はベンダーごとに機能が異なる
15. 15
データ分析基盤が担う範囲
• 狭義のデータ分析基盤は、DWHと
ETLツールとBIツールでしたが、現在
は、Data Lakeを含むのが⼀般的
• 分析データの⽤途は、すでにBIツール
から機械学習に拡⼤している
• 欲しいデータの所在や仕様の管理には
データカタログで⼀元管理する
• ソースデータからデータマートまでの
データのトレースにはデータリネージ
が⽤いられる
• 今後、DXの流れで外部データの収集
やシステム連携まで広範囲になりうる
Data Catalog /
Data Lineage
BI Tools &
ML/DL
ETL Tools &
Job Scheduler
Data Lake
DWH &
Data Mart