Submit Search
Upload
Delta lakesummary
•
Download as PPTX, PDF
•
0 likes
•
320 views
R
Ryoma Nagata
Follow
2020/4/23 Databricksもくもく会の資料です
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 15
Download now
Recommended
Delta Lake with Synapse dataflow
Delta Lake with Synapse dataflow
Ryoma Nagata
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
Ryoma Nagata
Data platformdesign
Data platformdesign
Ryoma Nagata
[DI03] DWH スペシャリストが語る! Azure SQL Data Warehouse チューニングの勘所
[DI03] DWH スペシャリストが語る! Azure SQL Data Warehouse チューニングの勘所
de:code 2017
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
de:code 2017
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
Satoshi Nagayasu
クラウドDWHにおける観点とAzure Synapse Analyticsの対応
クラウドDWHにおける観点とAzure Synapse Analyticsの対応
Ryoma Nagata
BigData Architecture for Azure
BigData Architecture for Azure
Ryoma Nagata
Recommended
Delta Lake with Synapse dataflow
Delta Lake with Synapse dataflow
Ryoma Nagata
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
Ryoma Nagata
Data platformdesign
Data platformdesign
Ryoma Nagata
[DI03] DWH スペシャリストが語る! Azure SQL Data Warehouse チューニングの勘所
[DI03] DWH スペシャリストが語る! Azure SQL Data Warehouse チューニングの勘所
de:code 2017
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
de:code 2017
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
Satoshi Nagayasu
クラウドDWHにおける観点とAzure Synapse Analyticsの対応
クラウドDWHにおける観点とAzure Synapse Analyticsの対応
Ryoma Nagata
BigData Architecture for Azure
BigData Architecture for Azure
Ryoma Nagata
DBP-009_クラウドで実現するスケーラブルなデータ ウェアハウス Azure SQL Data Warehouse 解説
DBP-009_クラウドで実現するスケーラブルなデータ ウェアハウス Azure SQL Data Warehouse 解説
decode2016
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
Techon Organization
Azure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data Lake
Hideo Takagi
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
Satoru Ishikawa
Azure Network 概要
Azure Network 概要
Takeshi Fukuhara
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Hideo Takagi
Snowflake Architecture and Performance
Snowflake Architecture and Performance
Mineaki Motohashi
Databricksを初めて使う人に向けて.pptx
Databricksを初めて使う人に向けて.pptx
otato
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)
日本マイクロソフト株式会社
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
Recruit Technologies
Google Cloud ベストプラクティス:Google BigQuery 編 - 01 : BigQuery とは?
Google Cloud ベストプラクティス:Google BigQuery 編 - 01 : BigQuery とは?
Google Cloud Platform - Japan
Azure Database for PostgreSQL 入門 (PostgreSQL Conference Japan 2021)
Azure Database for PostgreSQL 入門 (PostgreSQL Conference Japan 2021)
Keisuke Takahashi
Data Factory V2 新機能徹底活用入門
Data Factory V2 新機能徹底活用入門
Keisuke Fujikawa
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
Daiyu Hatakeyama
Databricks の始め方
Databricks の始め方
Ryoma Nagata
Synapse lakedatabase
Synapse lakedatabase
Ryoma Nagata
SQLアンチパターン - 開発者を待ち受ける25の落とし穴 (拡大版)
SQLアンチパターン - 開発者を待ち受ける25の落とし穴 (拡大版)
Takuto Wada
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門
Satoru Ishikawa
一歩先行く Azure Computing シリーズ(全3回) 第2回 Azure VM どれを選ぶの? Azure VM 集中講座
一歩先行く Azure Computing シリーズ(全3回) 第2回 Azure VM どれを選ぶの? Azure VM 集中講座
Minoru Naito
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
日本マイクロソフト株式会社
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (2/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (2/2)
日本マイクロソフト株式会社
More Related Content
What's hot
DBP-009_クラウドで実現するスケーラブルなデータ ウェアハウス Azure SQL Data Warehouse 解説
DBP-009_クラウドで実現するスケーラブルなデータ ウェアハウス Azure SQL Data Warehouse 解説
decode2016
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
Techon Organization
Azure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data Lake
Hideo Takagi
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
Satoru Ishikawa
Azure Network 概要
Azure Network 概要
Takeshi Fukuhara
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Hideo Takagi
Snowflake Architecture and Performance
Snowflake Architecture and Performance
Mineaki Motohashi
Databricksを初めて使う人に向けて.pptx
Databricksを初めて使う人に向けて.pptx
otato
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)
日本マイクロソフト株式会社
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
Recruit Technologies
Google Cloud ベストプラクティス:Google BigQuery 編 - 01 : BigQuery とは?
Google Cloud ベストプラクティス:Google BigQuery 編 - 01 : BigQuery とは?
Google Cloud Platform - Japan
Azure Database for PostgreSQL 入門 (PostgreSQL Conference Japan 2021)
Azure Database for PostgreSQL 入門 (PostgreSQL Conference Japan 2021)
Keisuke Takahashi
Data Factory V2 新機能徹底活用入門
Data Factory V2 新機能徹底活用入門
Keisuke Fujikawa
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
Daiyu Hatakeyama
Databricks の始め方
Databricks の始め方
Ryoma Nagata
Synapse lakedatabase
Synapse lakedatabase
Ryoma Nagata
SQLアンチパターン - 開発者を待ち受ける25の落とし穴 (拡大版)
SQLアンチパターン - 開発者を待ち受ける25の落とし穴 (拡大版)
Takuto Wada
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門
Satoru Ishikawa
一歩先行く Azure Computing シリーズ(全3回) 第2回 Azure VM どれを選ぶの? Azure VM 集中講座
一歩先行く Azure Computing シリーズ(全3回) 第2回 Azure VM どれを選ぶの? Azure VM 集中講座
Minoru Naito
What's hot
(20)
DBP-009_クラウドで実現するスケーラブルなデータ ウェアハウス Azure SQL Data Warehouse 解説
DBP-009_クラウドで実現するスケーラブルなデータ ウェアハウス Azure SQL Data Warehouse 解説
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
Azure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data Lake
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
Azure Network 概要
Azure Network 概要
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Snowflake Architecture and Performance
Snowflake Architecture and Performance
Databricksを初めて使う人に向けて.pptx
Databricksを初めて使う人に向けて.pptx
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
Google Cloud ベストプラクティス:Google BigQuery 編 - 01 : BigQuery とは?
Google Cloud ベストプラクティス:Google BigQuery 編 - 01 : BigQuery とは?
Azure Database for PostgreSQL 入門 (PostgreSQL Conference Japan 2021)
Azure Database for PostgreSQL 入門 (PostgreSQL Conference Japan 2021)
Data Factory V2 新機能徹底活用入門
Data Factory V2 新機能徹底活用入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
Databricks の始め方
Databricks の始め方
Synapse lakedatabase
Synapse lakedatabase
SQLアンチパターン - 開発者を待ち受ける25の落とし穴 (拡大版)
SQLアンチパターン - 開発者を待ち受ける25の落とし穴 (拡大版)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門
一歩先行く Azure Computing シリーズ(全3回) 第2回 Azure VM どれを選ぶの? Azure VM 集中講座
一歩先行く Azure Computing シリーズ(全3回) 第2回 Azure VM どれを選ぶの? Azure VM 集中講座
Similar to Delta lakesummary
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
日本マイクロソフト株式会社
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (2/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (2/2)
日本マイクロソフト株式会社
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
NTT DATA Technology & Innovation
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform
Naoki (Neo) SATO
最強のデータベース基盤“Exadata”をパブリック・クラウドで活用!(Oracle Cloud Days Tokyo 2015)
最強のデータベース基盤“Exadata”をパブリック・クラウドで活用!(Oracle Cloud Days Tokyo 2015)
オラクルエンジニア通信
ITインフラsummit 2017発表資料
ITインフラsummit 2017発表資料
Masayuki Hyugaji
楽天における大規模データベースの運用
楽天における大規模データベースの運用
Rakuten Group, Inc.
0151209 Oracle DDD OracleとHadoop連携の勘所
0151209 Oracle DDD OracleとHadoop連携の勘所
オラクルエンジニア通信
20180319 ccon sync kintone
20180319 ccon sync kintone
CData Software Japan
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
オラクルエンジニア通信
【de:code 2020】 PostgreSQL もスケールさせよう! - Hyperscale (Citus) -
【de:code 2020】 PostgreSQL もスケールさせよう! - Hyperscale (Citus) -
日本マイクロソフト株式会社
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
Daisuke Masubuchi
BigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House Architecture
Satoru Ishikawa
[B22] PostgresPlus Advanced Server の Oracle Database 互換機能検証 by Noriyoshi Shinoda
[B22] PostgresPlus Advanced Server の Oracle Database 互換機能検証 by Noriyoshi Shinoda
Insight Technology, Inc.
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
Oracle Database Appliance X5-2 アップデート内容のご紹介
Oracle Database Appliance X5-2 アップデート内容のご紹介
オラクルエンジニア通信
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
Satoru Ishikawa
オラクル・データベース・クラウド~さらなる進化のご紹介(Oracle Cloud Days Tokyo 2015)
オラクル・データベース・クラウド~さらなる進化のご紹介(Oracle Cloud Days Tokyo 2015)
オラクルエンジニア通信
PPT Full version: 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう
PPT Full version: 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう
Daisuke Masubuchi
Similar to Delta lakesummary
(20)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (2/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (2/2)
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform
最強のデータベース基盤“Exadata”をパブリック・クラウドで活用!(Oracle Cloud Days Tokyo 2015)
最強のデータベース基盤“Exadata”をパブリック・クラウドで活用!(Oracle Cloud Days Tokyo 2015)
ITインフラsummit 2017発表資料
ITインフラsummit 2017発表資料
楽天における大規模データベースの運用
楽天における大規模データベースの運用
0151209 Oracle DDD OracleとHadoop連携の勘所
0151209 Oracle DDD OracleとHadoop連携の勘所
20180319 ccon sync kintone
20180319 ccon sync kintone
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
【de:code 2020】 PostgreSQL もスケールさせよう! - Hyperscale (Citus) -
【de:code 2020】 PostgreSQL もスケールさせよう! - Hyperscale (Citus) -
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
PDF版 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう Db tech showcase2020
BigData-JAWS#16 Lake House Architecture
BigData-JAWS#16 Lake House Architecture
[B22] PostgresPlus Advanced Server の Oracle Database 互換機能検証 by Noriyoshi Shinoda
[B22] PostgresPlus Advanced Server の Oracle Database 互換機能検証 by Noriyoshi Shinoda
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Oracle Database Appliance X5-2 アップデート内容のご紹介
Oracle Database Appliance X5-2 アップデート内容のご紹介
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
オラクル・データベース・クラウド~さらなる進化のご紹介(Oracle Cloud Days Tokyo 2015)
オラクル・データベース・クラウド~さらなる進化のご紹介(Oracle Cloud Days Tokyo 2015)
PPT Full version: 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう
PPT Full version: 世界中のゲーム分析をしてきたPlayFabが大進化!一緒に裏側の最新データ探索の仕組みを覗いてみよう
More from Ryoma Nagata
Azure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/Spark
Ryoma Nagata
Power Query Online
Power Query Online
Ryoma Nagata
Paas_Security_Part1
Paas_Security_Part1
Ryoma Nagata
Azure DevOps CICD Azure SQL / Data Factory
Azure DevOps CICD Azure SQL / Data Factory
Ryoma Nagata
Ignite update databricks_stream_analytics
Ignite update databricks_stream_analytics
Ryoma Nagata
道徳経営実践講座
道徳経営実践講座
Ryoma Nagata
20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート
Ryoma Nagata
More from Ryoma Nagata
(7)
Azure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/Spark
Power Query Online
Power Query Online
Paas_Security_Part1
Paas_Security_Part1
Azure DevOps CICD Azure SQL / Data Factory
Azure DevOps CICD Azure SQL / Data Factory
Ignite update databricks_stream_analytics
Ignite update databricks_stream_analytics
道徳経営実践講座
道徳経営実践講座
20190517 Spark+AI Summit2019最新レポート
20190517 Spark+AI Summit2019最新レポート
Delta lakesummary
1.
株式会社ジール 永田 亮磨 Delta Lake概要
2.
自己紹介 永田 亮磨(Ryoma Nagata) •
BI専業ベンダー (株式会社ジール)勤務 • Microsoft AzureのData Platform関 連の導入・開発やワークショップ の講師をやってます Twitter:@ryomaru0825 Linkedin:ryoma-nagata-0825 Qiita:qiita.com/ryoma-nagata
3.
•Delta Lake概要 •Delta Lakeデモ AGENDA
4.
OSSプロジェクト『Delta Lake』 • Databricksの機能であったDelta をOSS化(昨年のSpark
+ AI Summit 2019 Keynoteで発表) • ファイルシステム上で動作し UpdateなどのDML実行が可能 • 実態はparquetファイルのため高 圧縮率 • 現在version 0.5.0 • https://delta.io/
5.
DatalakeとDWHの一般的な課題 Datalake • 柔軟に大容量データを格納可能 だが • 異なるシステムのストリーミング データの統合が困難 •
データレイク内のデータ更新は不 可能 • データレイクへのクエリ速度は低 い DWH • 永続テーブルの高速なクエリ だが • アクセスがSQLに限定 • ストリーミングデータと保存データの 同時アクセスは困難 • スキーマ柔軟性の課題 • コンピューティングとストレージの密 結合
6.
Delta Lake主要機能 Bigdataシステムで肥大した大規模なメタデータを分散処理可能 バッチデータ、ストリーミングを容易に統合 挿入データのスキーマ不正を自動検証 マージ、更新、および削除操作(DML)をサポートして複雑なユースケースを実現 データのバージョン管理により、ロールバック、完全な履歴監査証跡、機械学習の再現が可能 読み取り結果の不整合を防止
7.
Big Data基盤に代表的なラムダアーキテクチャ • スピードレイヤ(速報データ)とバッチレイヤ(蓄積データ)により、リアルタイム分析と時系列分析を両立 •
バッチレイヤで生データを保持し(DataLake)、ビジネスロジック変更後の再計算が可能 Big Data基盤の懸念 • https://docs.microsoft.com/ja-jp/azure/architecture/data-guide/big-data/#lambda-architecture データソース
8.
ラムダアーキテクチャ Big Data基盤の懸念 • https://docs.microsoft.com/ja-jp/azure/architecture/data-guide/big-data/#lambda-architecture データソース 不正データ混入時の対応 table/ ├
2020-01-01/ ├ 2020-01-02/ ├ 2020-01-03 │ └ data-01.parquet ・ ・ ・ パーティションに分散したデータの修正は 現実的?
9.
ラムダアーキテクチャ Big Data基盤の懸念 • https://docs.microsoft.com/ja-jp/azure/architecture/data-guide/big-data/#lambda-architecture データソース 速報データ同士の結合は不要? データソース
10.
Delta Lake 活用シーン① -安全なデータの追加 •
追加(append)、 上書き(overwrite)操作をアト ミックに実行 • テーブル挿入時には自動でス キーマ検証を行い、不正データ を例外処理することでデータを 保護 df.write .format("delta") .mode("append") .save("/mnt/delta/events") 連携データ 生データ保管 バッチデータ 保管テーブル追加 or 上書き (ACID) 不正列データ 生データ保管 バッチデータ 保管テーブルスキーマチェック
11.
Delta Lake 活用シーン② -DMLによるデータ更新 •
Update、Delete、 Mergeをサ ポートし、データの修正・削除 Upsertを実行 • タイムトラベルにより復元可能 • パーティションの利用により高 速化が可能 • Databricksでは先行利用できた が、Delta Lake 0.3.0リリースで 実装(Announcing the Delta Lake 0.3.0 Release) ID eventType timestamp 1 clck 2020/4/1 23:00 2 clck 2020/4/1 23:01 3 conversion 2020/4/1 23:02 UPDATE events SET eventType = 'click’ WHERE eventType = 'clck' ID eventType data 1 click AAA 2 click BBB 3 conversion CCC ID eventType data 3 conversion ccc' 4 conversion DDD MERGE INTO events USING updates ON events.eventId = updates.eventId WHEN MATCHED THEN UPDATE SET events.data = updates.data WHEN NOT MATCHED THEN INSERT (date, eventId, data) VALUES (date, eventId, data) ID eventType data 1 clck AAA 2 clck BBB 3 conversion ccc' 4 conversion DDD
12.
Delta Lake 活用シーン③ -異なるソースデータの統合 •
Structured-Streamingを利用し たDataframe操作により、バッ チ、ストリームを容易に結合可 能 • Structured-Streamingでは追加 されたファイルのみを正確に処 理 spark.readStream .format("delta") .load("/mnt/delta/events") Or events.writeStream .format("delta") .outputMode("append") .option("checkpointLocation", “path") .start("/delta/events") ストリーム データ ストリーム データ バッチデータ ストリームデータ 保管テーブル ストリームデータ 保管テーブル バッチデータ 保管テーブル 集計速報テーブル ストリームデータ 統合テーブル ストリーム &バッチデータ統 合テーブル
13.
• Git • https://github.com/ryoma- nagata/MyDatabricks/blob/master/20200423demo/DeltaLakeDemo_JPNC ovid19.ipynb •
Slide Share • https://www.slideshare.net/ssuser61ea57 DEMO
14.
• https://pages.databricks.com/Solving-Business-Problems-Delta- Lake-eBook-lp.html?_ga=2.206963795.130091878.1587356867- 872940378.1579665710 • https://docs.delta.io/0.4.0/delta-intro.html •
https://docs.microsoft.com/ja-jp/azure/databricks/delta/delta- intro • https://databricks.com/blog/2019/10/03/simple-reliable-upserts- and-deletes-on-delta-lake-tables-using-python-apis.html • https://docs.microsoft.com/ja-jp/azure/architecture/data- guide/big-data/#lambda-architecture • https://kb.databricks.com/delta/delta-merge-into.html 参考リンク
15.
ご清聴ありがとうございました。
Download now