@2019 Knowledge Communication Co. Ltd
2019年12月10日
株式会社 ナレッジコミュニケーション 井村 真樹
データ分析初学者視点から見た Azure Databricks
【Azure データ分析シリーズ】
@2019 Knowledge Communication Co. Ltd
自己紹介
名前: 井村 真樹 (いむら まさき)
所属: 株式会社 ナレッジコミュニケーション
興味: 新しい技術、音楽、キーボード
初学者目線で技術ブログを発信
https://qiita.com/Catetin0310 github.com/catetin/dbh/wiki
ハンズオン資料公開中
@2019 Knowledge Communication Co. Ltd
自己紹介
2019/3 まで 楽器音響機器メーカー 営業・マーケ系業務
ツール:Excelメイン、SQLすこし
2019/4 から ナレコム入社
データ関連の情報発信、資料作成、PMなどなど
ツール:Databricks など
@2019 Knowledge Communication Co. Ltd
つまり、
エンジニアリング・データ分析 初学者
自己紹介
@2019 Knowledge Communication Co. Ltd
データ分析 初学者の目線から、
Azure Databricks を使ってみて感動したこと
をお話しします
アジェンダ
@2019 Knowledge Communication Co. Ltd
アジェンダ
1. エクセルでのデータ分析 ここがつらかった
2. Azure Databricks ここがすごい
3. データ処理業務がどう変わったか
4. ハンズオンで行う内容
5. さいごに
@2019 Knowledge Communication Co. Ltd
1. エクセルでのデータ分析
Microsoft Excel
言わずと知れた表計算ソフト
@2019 Knowledge Communication Co. Ltd
1. エクセルでのデータ分析 – 前提
ex. 業務システムからデータを抽出 → 月次のレポート作成
@2019 Knowledge Communication Co. Ltd
1. エクセルでのデータ分析 – ロジックが埋もれがち
• 複数テーブルを結合する
際には、vlookup 関数を
使用することが多い
• 数式が入れ子になること
も多く、結局この列で何
を計算しているのか不明
瞭になりやすい
• 他のメンバーが引き継ぐ
と、謎エクセルシートに
なりがち
@2019 Knowledge Communication Co. Ltd
1. エクセルでのデータ分析 – 運用の人的コストが高い
グラフ化やピボット
テーブル作成
→ 結構な工数
@2019 Knowledge Communication Co. Ltd
1. エクセルでのデータ分析 – 運用の人的コストが高い
慣れているほど、
気が付かない
バージョン管理が難しい
どれが最新かわからない。
作成者もわからない (あ
りがち)
運用フローの整備
が必要。再現性維
持が大変
@2019 Knowledge Communication Co. Ltd
1. エクセルでのデータ分析 – not スケーラブル
• 処理の可否がローカルマシ
ンのスペックに依存する
• データ増える → フリーズ
→ 再設計 (工数)
• 解消のためにPCメモリを増
設、はよく聞く話
@2019 Knowledge Communication Co. Ltd
1. エクセルでのデータ分析 – まとめ
• ロジックが埋もれがち
• 運用の人的コストが高い
• not スケーラブル
@2019 Knowledge Communication Co. Ltd
2. Azure Databricks ここがすごい
Azure Databricks
データ加工から分析までを一体化したサービス
@2019 Knowledge Communication Co. Ltd
2. Azure Databricks ここがすごい – 安心感のある環境
クラスタのオートター
ミネーション有効化で、
従量課金化
@2019 Knowledge Communication Co. Ltd
2. Azure Databricks ここがすごい – 安心感のある環境
タイムマシーン的な機
能がつかえるので、
バージョン管理が楽
@2019 Knowledge Communication Co. Ltd
2. Azure Databricks ここがすごい – 安心感のある環境
コメントを Jupyter
Notebook ライクに残
せるので、
ロジックが散逸しない
@2019 Knowledge Communication Co. Ltd
2. Azure Databricks ここがすごい – 安心感のある環境
エンタープライズレベ
ルのセキュリティ
Azure Active Directory
ID の管理とセキュリティ保護のため
のユニバーサル プラットフォーム
@2019 Knowledge Communication Co. Ltd
2. Azure Databricks ここがすごい – データの可視化が容易
発行したクエリの結果
を数クリックで視覚化
= すぐにデータの傾
向を確認可能
@2019 Knowledge Communication Co. Ltd
2. Azure Databricks ここがすごい – 高速&スケーラブル
・Spark を作った人たちが
最適化、最新のバージョン
で動作
・雑なクエリを書いても、
自動的に最適化してくれる
・自動的にスケールアップ
&スケールダウン分散処理コンピューティングフレームワーク。
データ並列性と対故障性を備えたクラスタ全体を構成
@2019 Knowledge Communication Co. Ltd
2. Azure Databricks ここがすごい – Azure 内の連携
Cosmos DB
(NoSQL DB)
Azure Databricks
(データ加工&簡易分析)
Blob Data Lake
(データレイク)
Power BI
(分析ダッシュボード)
Azure Synapse
(次世代データウェアハウス)
Azure Machine Learning
(機械学習)
Data Factory
(データ移動、パイプライン、
オーケストレーション)
SQL Database
(リレーショナルDB)
@2019 Knowledge Communication Co. Ltd
2. Azure Databricks ここがすごい – Azure 内の連携
Power BI
https://app.powerbi.com/view?r=eyJrIjoiOGFmOTM5NDEtNTZkMi00MmYxLWFmZDAtYzgzNWYxNjFlN2FlIiwidCI6IjYxNTc5NTU5LWNiM2EtNGZmYy1hOTVmLTkwNzYzMmJhNDRlOCJ9
@2019 Knowledge Communication Co. Ltd
2. Azure Databricks ここがすごい – Azure 内の連携
Power BI
https://app.powerbi.com/view?r=eyJrIjoiOGFmOTM5NDEtNTZkMi00MmYxLWFmZDAtYzgzNWYxNjFlN2FlIiwidCI6IjYxNTc5NTU5LWNiM2EtNGZmYy1hOTVmLTkwNzYzMmJhNDRlOCJ9
@2019 Knowledge Communication Co. Ltd
2. Azure Databricks ここがすごい – Azure 内の連携
Power BI
https://app.powerbi.com/view?r=eyJrIjoiOGFmOTM5NDEtNTZkMi00MmYxLWFmZDAtYzgzNWYxNjFlN2FlIiwidCI6IjYxNTc5NTU5LWNiM2EtNGZmYy1hOTVmLTkwNzYzMmJhNDRlOCJ9
@2019 Knowledge Communication Co. Ltd
余談: Databricks ここが大変 – 初学者向けの情報が少ない
• PySpark の進化が早く、
バージョン1系と2.0の情報
がウェブ上で混在
• そもそも PySpark を使い
は玄人が多く、かみ砕いた
日本語の記事は少ない
公式ドキュメントを参照すれ
ばOK (初心者向けの記事も発
信してるので見てね)
@2019 Knowledge Communication Co. Ltd
2. Azure Databricks ここがすごい – まとめ
• 安心感のある環境
• 簡単にデータを可視化
• 高速&スケーラブル
• Azure 内の連携
@2019 Knowledge Communication Co. Ltd
3. データ分析業務がどう変わったか
@2019 Knowledge Communication Co. Ltd
3. データ分析業務がどう変わったか
• 安心感
• 簡単にデータを可視化
• 高速&スケーラブル
• Azure 内の連携
• ロジックが埋もれがち
• 運用の人的コストが高い
• not スケーラブル
@2019 Knowledge Communication Co. Ltd
3. データ分析業務がどう変わったか
• 安心感
• 簡単にデータを可視化
• 高速&スケーラブル
• Azure 内の連携
• ロジックが埋もれがち
• 運用の人的コストが高い
• not スケーラブル
@2019 Knowledge Communication Co. Ltd
3. データ分析業務がどう変わったか
• 安心感
• 簡単にデータを可視化
• 高速&スケーラブル
• Azure 内の連携
• ロジックが埋もれがち
• 運用の人的コストが高い
• not スケーラブル
@2019 Knowledge Communication Co. Ltd
3. データ分析業務がどう変わったか
• 安心感
• 簡単にデータを可視化
• 高速&スケーラブル
• Azure 内の連携
• ロジックが埋もれがち
• 運用の人的コストが高い
• not スケーラブル
@2019 Knowledge Communication Co. Ltd
3. データ分析業務がどう変わったか
• 安心感
• 簡単にデータを可視化
• 高速&スケーラブル
• Azure 内の連携
• ロジックが埋もれがち
• 運用の人的コストが高い
• not スケーラブル
@2019 Knowledge Communication Co. Ltd
4. ハンズオンで行う内容 – 使用データ概要
出典元:Kaggle
データ概要:
Azure ブラジル市場最
大のデパートのeコマー
スストアの売上情報
https://www.kaggle.com/olistbr/brazilian-ecommerce
@2019 Knowledge Communication Co. Ltd
4. ハンズオンで行う内容 – 使用データ概要
出典元:Kaggle
データ概要:
Azure ブラジル市場最
大のデパートのeコマー
スストアの売上情報
https://www.kaggle.com/olistbr/brazilian-ecommerce
@2019 Knowledge Communication Co. Ltd
4. ハンズオンで行う内容 – ペルソナ
最近顧客満足度 (レビュースコア)
が下がっているようだ原因を探って
改善策を練ろう。
ざっと見る限り、デリバリの遅れと
製品カテゴリに相関しそうだ。
まずは定量的に評価しやすいように、
視覚化してみよう。
Eコマースサイト運営者
@2019 Knowledge Communication Co. Ltd
4. ハンズオンで行う内容 – Azure 環境 (再掲)
Cosmos DB
(NoSQL DB)
Azure Databricks
(データ加工&簡易分析)
Blob Data Lake
(データレイク)
Power BI
(分析ダッシュボード)
Azure Synapse
(次世代データウェアハウス)
Azure Machine Learning
(機械学習)
Data Factory
(データ移動、パイプライン、
オーケストレーション)
SQL Database
(リレーショナルDB)
@2019 Knowledge Communication Co. Ltd
4. ハンズオンで行う内容 – スコープ
Azure Databricks
(データ加工&簡易分析)
Blob Data Lake
(データレイク)
Power BI
(分析ダッシュボード)
・このアーキテクチャを構築
・ペルソナの課題に応じた簡易分析
・分析ダッシュボードの作成
までを行います!
@2019 Knowledge Communication Co. Ltd
Azure Databricks から
データ分析に入ったっていい!
Excel で複雑な処理をしてる人
→ すぐに導入を検討しましょう!
5. さいごに
@2019 Knowledge Communication Co. Ltd
さいごのさいごに
データパイプライン AI / 機械学習 BI ツール
弊社で導入支援行っています。
本セミナーの後にもご相談を承ります!
@2019 Knowledge Communication Co. Ltd
ご清聴ありがとうございました

101210_データ分析初学者から見たAzure Databricks

  • 1.
    @2019 Knowledge CommunicationCo. Ltd 2019年12月10日 株式会社 ナレッジコミュニケーション 井村 真樹 データ分析初学者視点から見た Azure Databricks 【Azure データ分析シリーズ】
  • 2.
    @2019 Knowledge CommunicationCo. Ltd 自己紹介 名前: 井村 真樹 (いむら まさき) 所属: 株式会社 ナレッジコミュニケーション 興味: 新しい技術、音楽、キーボード 初学者目線で技術ブログを発信 https://qiita.com/Catetin0310 github.com/catetin/dbh/wiki ハンズオン資料公開中
  • 3.
    @2019 Knowledge CommunicationCo. Ltd 自己紹介 2019/3 まで 楽器音響機器メーカー 営業・マーケ系業務 ツール:Excelメイン、SQLすこし 2019/4 から ナレコム入社 データ関連の情報発信、資料作成、PMなどなど ツール:Databricks など
  • 4.
    @2019 Knowledge CommunicationCo. Ltd つまり、 エンジニアリング・データ分析 初学者 自己紹介
  • 5.
    @2019 Knowledge CommunicationCo. Ltd データ分析 初学者の目線から、 Azure Databricks を使ってみて感動したこと をお話しします アジェンダ
  • 6.
    @2019 Knowledge CommunicationCo. Ltd アジェンダ 1. エクセルでのデータ分析 ここがつらかった 2. Azure Databricks ここがすごい 3. データ処理業務がどう変わったか 4. ハンズオンで行う内容 5. さいごに
  • 7.
    @2019 Knowledge CommunicationCo. Ltd 1. エクセルでのデータ分析 Microsoft Excel 言わずと知れた表計算ソフト
  • 8.
    @2019 Knowledge CommunicationCo. Ltd 1. エクセルでのデータ分析 – 前提 ex. 業務システムからデータを抽出 → 月次のレポート作成
  • 9.
    @2019 Knowledge CommunicationCo. Ltd 1. エクセルでのデータ分析 – ロジックが埋もれがち • 複数テーブルを結合する 際には、vlookup 関数を 使用することが多い • 数式が入れ子になること も多く、結局この列で何 を計算しているのか不明 瞭になりやすい • 他のメンバーが引き継ぐ と、謎エクセルシートに なりがち
  • 10.
    @2019 Knowledge CommunicationCo. Ltd 1. エクセルでのデータ分析 – 運用の人的コストが高い グラフ化やピボット テーブル作成 → 結構な工数
  • 11.
    @2019 Knowledge CommunicationCo. Ltd 1. エクセルでのデータ分析 – 運用の人的コストが高い 慣れているほど、 気が付かない バージョン管理が難しい どれが最新かわからない。 作成者もわからない (あ りがち) 運用フローの整備 が必要。再現性維 持が大変
  • 12.
    @2019 Knowledge CommunicationCo. Ltd 1. エクセルでのデータ分析 – not スケーラブル • 処理の可否がローカルマシ ンのスペックに依存する • データ増える → フリーズ → 再設計 (工数) • 解消のためにPCメモリを増 設、はよく聞く話
  • 13.
    @2019 Knowledge CommunicationCo. Ltd 1. エクセルでのデータ分析 – まとめ • ロジックが埋もれがち • 運用の人的コストが高い • not スケーラブル
  • 14.
    @2019 Knowledge CommunicationCo. Ltd 2. Azure Databricks ここがすごい Azure Databricks データ加工から分析までを一体化したサービス
  • 15.
    @2019 Knowledge CommunicationCo. Ltd 2. Azure Databricks ここがすごい – 安心感のある環境 クラスタのオートター ミネーション有効化で、 従量課金化
  • 16.
    @2019 Knowledge CommunicationCo. Ltd 2. Azure Databricks ここがすごい – 安心感のある環境 タイムマシーン的な機 能がつかえるので、 バージョン管理が楽
  • 17.
    @2019 Knowledge CommunicationCo. Ltd 2. Azure Databricks ここがすごい – 安心感のある環境 コメントを Jupyter Notebook ライクに残 せるので、 ロジックが散逸しない
  • 18.
    @2019 Knowledge CommunicationCo. Ltd 2. Azure Databricks ここがすごい – 安心感のある環境 エンタープライズレベ ルのセキュリティ Azure Active Directory ID の管理とセキュリティ保護のため のユニバーサル プラットフォーム
  • 19.
    @2019 Knowledge CommunicationCo. Ltd 2. Azure Databricks ここがすごい – データの可視化が容易 発行したクエリの結果 を数クリックで視覚化 = すぐにデータの傾 向を確認可能
  • 20.
    @2019 Knowledge CommunicationCo. Ltd 2. Azure Databricks ここがすごい – 高速&スケーラブル ・Spark を作った人たちが 最適化、最新のバージョン で動作 ・雑なクエリを書いても、 自動的に最適化してくれる ・自動的にスケールアップ &スケールダウン分散処理コンピューティングフレームワーク。 データ並列性と対故障性を備えたクラスタ全体を構成
  • 21.
    @2019 Knowledge CommunicationCo. Ltd 2. Azure Databricks ここがすごい – Azure 内の連携 Cosmos DB (NoSQL DB) Azure Databricks (データ加工&簡易分析) Blob Data Lake (データレイク) Power BI (分析ダッシュボード) Azure Synapse (次世代データウェアハウス) Azure Machine Learning (機械学習) Data Factory (データ移動、パイプライン、 オーケストレーション) SQL Database (リレーショナルDB)
  • 22.
    @2019 Knowledge CommunicationCo. Ltd 2. Azure Databricks ここがすごい – Azure 内の連携 Power BI https://app.powerbi.com/view?r=eyJrIjoiOGFmOTM5NDEtNTZkMi00MmYxLWFmZDAtYzgzNWYxNjFlN2FlIiwidCI6IjYxNTc5NTU5LWNiM2EtNGZmYy1hOTVmLTkwNzYzMmJhNDRlOCJ9
  • 23.
    @2019 Knowledge CommunicationCo. Ltd 2. Azure Databricks ここがすごい – Azure 内の連携 Power BI https://app.powerbi.com/view?r=eyJrIjoiOGFmOTM5NDEtNTZkMi00MmYxLWFmZDAtYzgzNWYxNjFlN2FlIiwidCI6IjYxNTc5NTU5LWNiM2EtNGZmYy1hOTVmLTkwNzYzMmJhNDRlOCJ9
  • 24.
    @2019 Knowledge CommunicationCo. Ltd 2. Azure Databricks ここがすごい – Azure 内の連携 Power BI https://app.powerbi.com/view?r=eyJrIjoiOGFmOTM5NDEtNTZkMi00MmYxLWFmZDAtYzgzNWYxNjFlN2FlIiwidCI6IjYxNTc5NTU5LWNiM2EtNGZmYy1hOTVmLTkwNzYzMmJhNDRlOCJ9
  • 25.
    @2019 Knowledge CommunicationCo. Ltd 余談: Databricks ここが大変 – 初学者向けの情報が少ない • PySpark の進化が早く、 バージョン1系と2.0の情報 がウェブ上で混在 • そもそも PySpark を使い は玄人が多く、かみ砕いた 日本語の記事は少ない 公式ドキュメントを参照すれ ばOK (初心者向けの記事も発 信してるので見てね)
  • 26.
    @2019 Knowledge CommunicationCo. Ltd 2. Azure Databricks ここがすごい – まとめ • 安心感のある環境 • 簡単にデータを可視化 • 高速&スケーラブル • Azure 内の連携
  • 27.
    @2019 Knowledge CommunicationCo. Ltd 3. データ分析業務がどう変わったか
  • 28.
    @2019 Knowledge CommunicationCo. Ltd 3. データ分析業務がどう変わったか • 安心感 • 簡単にデータを可視化 • 高速&スケーラブル • Azure 内の連携 • ロジックが埋もれがち • 運用の人的コストが高い • not スケーラブル
  • 29.
    @2019 Knowledge CommunicationCo. Ltd 3. データ分析業務がどう変わったか • 安心感 • 簡単にデータを可視化 • 高速&スケーラブル • Azure 内の連携 • ロジックが埋もれがち • 運用の人的コストが高い • not スケーラブル
  • 30.
    @2019 Knowledge CommunicationCo. Ltd 3. データ分析業務がどう変わったか • 安心感 • 簡単にデータを可視化 • 高速&スケーラブル • Azure 内の連携 • ロジックが埋もれがち • 運用の人的コストが高い • not スケーラブル
  • 31.
    @2019 Knowledge CommunicationCo. Ltd 3. データ分析業務がどう変わったか • 安心感 • 簡単にデータを可視化 • 高速&スケーラブル • Azure 内の連携 • ロジックが埋もれがち • 運用の人的コストが高い • not スケーラブル
  • 32.
    @2019 Knowledge CommunicationCo. Ltd 3. データ分析業務がどう変わったか • 安心感 • 簡単にデータを可視化 • 高速&スケーラブル • Azure 内の連携 • ロジックが埋もれがち • 運用の人的コストが高い • not スケーラブル
  • 33.
    @2019 Knowledge CommunicationCo. Ltd 4. ハンズオンで行う内容 – 使用データ概要 出典元:Kaggle データ概要: Azure ブラジル市場最 大のデパートのeコマー スストアの売上情報 https://www.kaggle.com/olistbr/brazilian-ecommerce
  • 34.
    @2019 Knowledge CommunicationCo. Ltd 4. ハンズオンで行う内容 – 使用データ概要 出典元:Kaggle データ概要: Azure ブラジル市場最 大のデパートのeコマー スストアの売上情報 https://www.kaggle.com/olistbr/brazilian-ecommerce
  • 35.
    @2019 Knowledge CommunicationCo. Ltd 4. ハンズオンで行う内容 – ペルソナ 最近顧客満足度 (レビュースコア) が下がっているようだ原因を探って 改善策を練ろう。 ざっと見る限り、デリバリの遅れと 製品カテゴリに相関しそうだ。 まずは定量的に評価しやすいように、 視覚化してみよう。 Eコマースサイト運営者
  • 36.
    @2019 Knowledge CommunicationCo. Ltd 4. ハンズオンで行う内容 – Azure 環境 (再掲) Cosmos DB (NoSQL DB) Azure Databricks (データ加工&簡易分析) Blob Data Lake (データレイク) Power BI (分析ダッシュボード) Azure Synapse (次世代データウェアハウス) Azure Machine Learning (機械学習) Data Factory (データ移動、パイプライン、 オーケストレーション) SQL Database (リレーショナルDB)
  • 37.
    @2019 Knowledge CommunicationCo. Ltd 4. ハンズオンで行う内容 – スコープ Azure Databricks (データ加工&簡易分析) Blob Data Lake (データレイク) Power BI (分析ダッシュボード) ・このアーキテクチャを構築 ・ペルソナの課題に応じた簡易分析 ・分析ダッシュボードの作成 までを行います!
  • 38.
    @2019 Knowledge CommunicationCo. Ltd Azure Databricks から データ分析に入ったっていい! Excel で複雑な処理をしてる人 → すぐに導入を検討しましょう! 5. さいごに
  • 39.
    @2019 Knowledge CommunicationCo. Ltd さいごのさいごに データパイプライン AI / 機械学習 BI ツール 弊社で導入支援行っています。 本セミナーの後にもご相談を承ります!
  • 40.
    @2019 Knowledge CommunicationCo. Ltd ご清聴ありがとうございました