SlideShare a Scribd company logo
@2019 Knowledge Communication Co. Ltd
2019年12月10日
株式会社 ナレッジコミュニケーション 井村 真樹
データ分析初学者視点から見た Azure Databricks
【Azure データ分析シリーズ】
@2019 Knowledge Communication Co. Ltd
自己紹介
名前: 井村 真樹 (いむら まさき)
所属: 株式会社 ナレッジコミュニケーション
興味: 新しい技術、音楽、キーボード
初学者目線で技術ブログを発信
https://qiita.com/Catetin0310 github.com/catetin/dbh/wiki
ハンズオン資料公開中
@2019 Knowledge Communication Co. Ltd
自己紹介
2019/3 まで 楽器音響機器メーカー 営業・マーケ系業務
ツール:Excelメイン、SQLすこし
2019/4 から ナレコム入社
データ関連の情報発信、資料作成、PMなどなど
ツール:Databricks など
@2019 Knowledge Communication Co. Ltd
つまり、
エンジニアリング・データ分析 初学者
自己紹介
@2019 Knowledge Communication Co. Ltd
データ分析 初学者の目線から、
Azure Databricks を使ってみて感動したこと
をお話しします
アジェンダ
@2019 Knowledge Communication Co. Ltd
アジェンダ
1. エクセルでのデータ分析 ここがつらかった
2. Azure Databricks ここがすごい
3. データ処理業務がどう変わったか
4. ハンズオンで行う内容
5. さいごに
@2019 Knowledge Communication Co. Ltd
1. エクセルでのデータ分析
Microsoft Excel
言わずと知れた表計算ソフト
@2019 Knowledge Communication Co. Ltd
1. エクセルでのデータ分析 – 前提
ex. 業務システムからデータを抽出 → 月次のレポート作成
@2019 Knowledge Communication Co. Ltd
1. エクセルでのデータ分析 – ロジックが埋もれがち
• 複数テーブルを結合する
際には、vlookup 関数を
使用することが多い
• 数式が入れ子になること
も多く、結局この列で何
を計算しているのか不明
瞭になりやすい
• 他のメンバーが引き継ぐ
と、謎エクセルシートに
なりがち
@2019 Knowledge Communication Co. Ltd
1. エクセルでのデータ分析 – 運用の人的コストが高い
グラフ化やピボット
テーブル作成
→ 結構な工数
@2019 Knowledge Communication Co. Ltd
1. エクセルでのデータ分析 – 運用の人的コストが高い
慣れているほど、
気が付かない
バージョン管理が難しい
どれが最新かわからない。
作成者もわからない (あ
りがち)
運用フローの整備
が必要。再現性維
持が大変
@2019 Knowledge Communication Co. Ltd
1. エクセルでのデータ分析 – not スケーラブル
• 処理の可否がローカルマシ
ンのスペックに依存する
• データ増える → フリーズ
→ 再設計 (工数)
• 解消のためにPCメモリを増
設、はよく聞く話
@2019 Knowledge Communication Co. Ltd
1. エクセルでのデータ分析 – まとめ
• ロジックが埋もれがち
• 運用の人的コストが高い
• not スケーラブル
@2019 Knowledge Communication Co. Ltd
2. Azure Databricks ここがすごい
Azure Databricks
データ加工から分析までを一体化したサービス
@2019 Knowledge Communication Co. Ltd
2. Azure Databricks ここがすごい – 安心感のある環境
クラスタのオートター
ミネーション有効化で、
従量課金化
@2019 Knowledge Communication Co. Ltd
2. Azure Databricks ここがすごい – 安心感のある環境
タイムマシーン的な機
能がつかえるので、
バージョン管理が楽
@2019 Knowledge Communication Co. Ltd
2. Azure Databricks ここがすごい – 安心感のある環境
コメントを Jupyter
Notebook ライクに残
せるので、
ロジックが散逸しない
@2019 Knowledge Communication Co. Ltd
2. Azure Databricks ここがすごい – 安心感のある環境
エンタープライズレベ
ルのセキュリティ
Azure Active Directory
ID の管理とセキュリティ保護のため
のユニバーサル プラットフォーム
@2019 Knowledge Communication Co. Ltd
2. Azure Databricks ここがすごい – データの可視化が容易
発行したクエリの結果
を数クリックで視覚化
= すぐにデータの傾
向を確認可能
@2019 Knowledge Communication Co. Ltd
2. Azure Databricks ここがすごい – 高速&スケーラブル
・Spark を作った人たちが
最適化、最新のバージョン
で動作
・雑なクエリを書いても、
自動的に最適化してくれる
・自動的にスケールアップ
&スケールダウン分散処理コンピューティングフレームワーク。
データ並列性と対故障性を備えたクラスタ全体を構成
@2019 Knowledge Communication Co. Ltd
2. Azure Databricks ここがすごい – Azure 内の連携
Cosmos DB
(NoSQL DB)
Azure Databricks
(データ加工&簡易分析)
Blob Data Lake
(データレイク)
Power BI
(分析ダッシュボード)
Azure Synapse
(次世代データウェアハウス)
Azure Machine Learning
(機械学習)
Data Factory
(データ移動、パイプライン、
オーケストレーション)
SQL Database
(リレーショナルDB)
@2019 Knowledge Communication Co. Ltd
2. Azure Databricks ここがすごい – Azure 内の連携
Power BI
https://app.powerbi.com/view?r=eyJrIjoiOGFmOTM5NDEtNTZkMi00MmYxLWFmZDAtYzgzNWYxNjFlN2FlIiwidCI6IjYxNTc5NTU5LWNiM2EtNGZmYy1hOTVmLTkwNzYzMmJhNDRlOCJ9
@2019 Knowledge Communication Co. Ltd
2. Azure Databricks ここがすごい – Azure 内の連携
Power BI
https://app.powerbi.com/view?r=eyJrIjoiOGFmOTM5NDEtNTZkMi00MmYxLWFmZDAtYzgzNWYxNjFlN2FlIiwidCI6IjYxNTc5NTU5LWNiM2EtNGZmYy1hOTVmLTkwNzYzMmJhNDRlOCJ9
@2019 Knowledge Communication Co. Ltd
2. Azure Databricks ここがすごい – Azure 内の連携
Power BI
https://app.powerbi.com/view?r=eyJrIjoiOGFmOTM5NDEtNTZkMi00MmYxLWFmZDAtYzgzNWYxNjFlN2FlIiwidCI6IjYxNTc5NTU5LWNiM2EtNGZmYy1hOTVmLTkwNzYzMmJhNDRlOCJ9
@2019 Knowledge Communication Co. Ltd
余談: Databricks ここが大変 – 初学者向けの情報が少ない
• PySpark の進化が早く、
バージョン1系と2.0の情報
がウェブ上で混在
• そもそも PySpark を使い
は玄人が多く、かみ砕いた
日本語の記事は少ない
公式ドキュメントを参照すれ
ばOK (初心者向けの記事も発
信してるので見てね)
@2019 Knowledge Communication Co. Ltd
2. Azure Databricks ここがすごい – まとめ
• 安心感のある環境
• 簡単にデータを可視化
• 高速&スケーラブル
• Azure 内の連携
@2019 Knowledge Communication Co. Ltd
3. データ分析業務がどう変わったか
@2019 Knowledge Communication Co. Ltd
3. データ分析業務がどう変わったか
• 安心感
• 簡単にデータを可視化
• 高速&スケーラブル
• Azure 内の連携
• ロジックが埋もれがち
• 運用の人的コストが高い
• not スケーラブル
@2019 Knowledge Communication Co. Ltd
3. データ分析業務がどう変わったか
• 安心感
• 簡単にデータを可視化
• 高速&スケーラブル
• Azure 内の連携
• ロジックが埋もれがち
• 運用の人的コストが高い
• not スケーラブル
@2019 Knowledge Communication Co. Ltd
3. データ分析業務がどう変わったか
• 安心感
• 簡単にデータを可視化
• 高速&スケーラブル
• Azure 内の連携
• ロジックが埋もれがち
• 運用の人的コストが高い
• not スケーラブル
@2019 Knowledge Communication Co. Ltd
3. データ分析業務がどう変わったか
• 安心感
• 簡単にデータを可視化
• 高速&スケーラブル
• Azure 内の連携
• ロジックが埋もれがち
• 運用の人的コストが高い
• not スケーラブル
@2019 Knowledge Communication Co. Ltd
3. データ分析業務がどう変わったか
• 安心感
• 簡単にデータを可視化
• 高速&スケーラブル
• Azure 内の連携
• ロジックが埋もれがち
• 運用の人的コストが高い
• not スケーラブル
@2019 Knowledge Communication Co. Ltd
4. ハンズオンで行う内容 – 使用データ概要
出典元:Kaggle
データ概要:
Azure ブラジル市場最
大のデパートのeコマー
スストアの売上情報
https://www.kaggle.com/olistbr/brazilian-ecommerce
@2019 Knowledge Communication Co. Ltd
4. ハンズオンで行う内容 – 使用データ概要
出典元:Kaggle
データ概要:
Azure ブラジル市場最
大のデパートのeコマー
スストアの売上情報
https://www.kaggle.com/olistbr/brazilian-ecommerce
@2019 Knowledge Communication Co. Ltd
4. ハンズオンで行う内容 – ペルソナ
最近顧客満足度 (レビュースコア)
が下がっているようだ原因を探って
改善策を練ろう。
ざっと見る限り、デリバリの遅れと
製品カテゴリに相関しそうだ。
まずは定量的に評価しやすいように、
視覚化してみよう。
Eコマースサイト運営者
@2019 Knowledge Communication Co. Ltd
4. ハンズオンで行う内容 – Azure 環境 (再掲)
Cosmos DB
(NoSQL DB)
Azure Databricks
(データ加工&簡易分析)
Blob Data Lake
(データレイク)
Power BI
(分析ダッシュボード)
Azure Synapse
(次世代データウェアハウス)
Azure Machine Learning
(機械学習)
Data Factory
(データ移動、パイプライン、
オーケストレーション)
SQL Database
(リレーショナルDB)
@2019 Knowledge Communication Co. Ltd
4. ハンズオンで行う内容 – スコープ
Azure Databricks
(データ加工&簡易分析)
Blob Data Lake
(データレイク)
Power BI
(分析ダッシュボード)
・このアーキテクチャを構築
・ペルソナの課題に応じた簡易分析
・分析ダッシュボードの作成
までを行います!
@2019 Knowledge Communication Co. Ltd
Azure Databricks から
データ分析に入ったっていい!
Excel で複雑な処理をしてる人
→ すぐに導入を検討しましょう!
5. さいごに
@2019 Knowledge Communication Co. Ltd
さいごのさいごに
データパイプライン AI / 機械学習 BI ツール
弊社で導入支援行っています。
本セミナーの後にもご相談を承ります!
@2019 Knowledge Communication Co. Ltd
ご清聴ありがとうございました

More Related Content

Similar to 101210_データ分析初学者から見たAzure Databricks

Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
NTT DATA Technology & Innovation
 
[Track1-1] AIの売上予測を発注システムに組み込んだリンガーハットのデータ活用戦略
[Track1-1] AIの売上予測を発注システムに組み込んだリンガーハットのデータ活用戦略[Track1-1] AIの売上予測を発注システムに組み込んだリンガーハットのデータ活用戦略
[Track1-1] AIの売上予測を発注システムに組み込んだリンガーハットのデータ活用戦略
Deep Learning Lab(ディープラーニング・ラボ)
 
Power Platform Summary
Power Platform  SummaryPower Platform  Summary
Power Platform Summary
Yugo Shimizu
 
Kubernetes on Azure ~Azureで便利にKubernetesを利用する~
Kubernetes on Azure ~Azureで便利にKubernetesを利用する~Kubernetes on Azure ~Azureで便利にKubernetesを利用する~
Kubernetes on Azure ~Azureで便利にKubernetesを利用する~
Yoshimasa Katakura
 
【Azureデータ分析シリーズ】非専門家向け/利用部門主導で始めるデータ分析_ナレッジコミュニケーション公開資料
【Azureデータ分析シリーズ】非専門家向け/利用部門主導で始めるデータ分析_ナレッジコミュニケーション公開資料【Azureデータ分析シリーズ】非専門家向け/利用部門主導で始めるデータ分析_ナレッジコミュニケーション公開資料
【Azureデータ分析シリーズ】非専門家向け/利用部門主導で始めるデータ分析_ナレッジコミュニケーション公開資料
Takaya Nakanishi
 
Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...
Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...
Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...
NTT DATA Technology & Innovation
 
Do you wanna be a V-ROCK star?
Do you wanna be a V-ROCK star?Do you wanna be a V-ROCK star?
Do you wanna be a V-ROCK star?
Yugo Shimizu
 
IoT@Loft #4 - IoT製品の量産化および運用を効率化させるためのAWS サービスの使い方
IoT@Loft #4 - IoT製品の量産化および運用を効率化させるためのAWS サービスの使い方IoT@Loft #4 - IoT製品の量産化および運用を効率化させるためのAWS サービスの使い方
IoT@Loft #4 - IoT製品の量産化および運用を効率化させるためのAWS サービスの使い方
Amazon Web Services Japan
 
データをどこに溜めよう?ローカル?クラウド?どのデータベース?
データをどこに溜めよう?ローカル?クラウド?どのデータベース?データをどこに溜めよう?ローカル?クラウド?どのデータベース?
データをどこに溜めよう?ローカル?クラウド?どのデータベース?
- Core Concept Technologies
 
インフラCICDの勘所
インフラCICDの勘所インフラCICDの勘所
インフラCICDの勘所
Toru Makabe
 
20160527_06_Azure Certified for IoT for 共創ラボ
20160527_06_Azure Certified for IoT for 共創ラボ20160527_06_Azure Certified for IoT for 共創ラボ
20160527_06_Azure Certified for IoT for 共創ラボ
IoTビジネス共創ラボ
 
de:code 2019 Cloud トラック 総まとめ! 完全版
de:code 2019 Cloud トラック 総まとめ! 完全版de:code 2019 Cloud トラック 総まとめ! 完全版
de:code 2019 Cloud トラック 総まとめ! 完全版
Minoru Naito
 
20180319 ccon sync kintone
20180319 ccon sync kintone20180319 ccon sync kintone
20180319 ccon sync kintone
CData Software Japan
 
祝★AWSスタンダードコンサルティングパートナーに認定されました
祝★AWSスタンダードコンサルティングパートナーに認定されました祝★AWSスタンダードコンサルティングパートナーに認定されました
祝★AWSスタンダードコンサルティングパートナーに認定されました
Core Concept Technologies
 
MS-Office 製品からのkintoneデータ活用
MS-Office 製品からのkintoneデータ活用MS-Office 製品からのkintoneデータ活用
MS-Office 製品からのkintoneデータ活用
CData Software Japan
 
Data & AI Update 情報 - 2020年4月版
Data & AI Update 情報 - 2020年4月版Data & AI Update 情報 - 2020年4月版
Data & AI Update 情報 - 2020年4月版
Takeshi Fukuhara
 
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
NTT DATA Technology & Innovation
 
db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也
Insight Technology, Inc.
 
JAZUG 9周年イベント 懇親会ライトニングトーク
JAZUG 9周年イベント 懇親会ライトニングトークJAZUG 9周年イベント 懇親会ライトニングトーク
JAZUG 9周年イベント 懇親会ライトニングトーク
Dai Iwai
 
オープンソースデータベース GridDBとそのオープンコミュニティ活動
オープンソースデータベース GridDBとそのオープンコミュニティ活動オープンソースデータベース GridDBとそのオープンコミュニティ活動
オープンソースデータベース GridDBとそのオープンコミュニティ活動
griddb
 

Similar to 101210_データ分析初学者から見たAzure Databricks (20)

Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
 
[Track1-1] AIの売上予測を発注システムに組み込んだリンガーハットのデータ活用戦略
[Track1-1] AIの売上予測を発注システムに組み込んだリンガーハットのデータ活用戦略[Track1-1] AIの売上予測を発注システムに組み込んだリンガーハットのデータ活用戦略
[Track1-1] AIの売上予測を発注システムに組み込んだリンガーハットのデータ活用戦略
 
Power Platform Summary
Power Platform  SummaryPower Platform  Summary
Power Platform Summary
 
Kubernetes on Azure ~Azureで便利にKubernetesを利用する~
Kubernetes on Azure ~Azureで便利にKubernetesを利用する~Kubernetes on Azure ~Azureで便利にKubernetesを利用する~
Kubernetes on Azure ~Azureで便利にKubernetesを利用する~
 
【Azureデータ分析シリーズ】非専門家向け/利用部門主導で始めるデータ分析_ナレッジコミュニケーション公開資料
【Azureデータ分析シリーズ】非専門家向け/利用部門主導で始めるデータ分析_ナレッジコミュニケーション公開資料【Azureデータ分析シリーズ】非専門家向け/利用部門主導で始めるデータ分析_ナレッジコミュニケーション公開資料
【Azureデータ分析シリーズ】非専門家向け/利用部門主導で始めるデータ分析_ナレッジコミュニケーション公開資料
 
Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...
Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...
Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...
 
Do you wanna be a V-ROCK star?
Do you wanna be a V-ROCK star?Do you wanna be a V-ROCK star?
Do you wanna be a V-ROCK star?
 
IoT@Loft #4 - IoT製品の量産化および運用を効率化させるためのAWS サービスの使い方
IoT@Loft #4 - IoT製品の量産化および運用を効率化させるためのAWS サービスの使い方IoT@Loft #4 - IoT製品の量産化および運用を効率化させるためのAWS サービスの使い方
IoT@Loft #4 - IoT製品の量産化および運用を効率化させるためのAWS サービスの使い方
 
データをどこに溜めよう?ローカル?クラウド?どのデータベース?
データをどこに溜めよう?ローカル?クラウド?どのデータベース?データをどこに溜めよう?ローカル?クラウド?どのデータベース?
データをどこに溜めよう?ローカル?クラウド?どのデータベース?
 
インフラCICDの勘所
インフラCICDの勘所インフラCICDの勘所
インフラCICDの勘所
 
20160527_06_Azure Certified for IoT for 共創ラボ
20160527_06_Azure Certified for IoT for 共創ラボ20160527_06_Azure Certified for IoT for 共創ラボ
20160527_06_Azure Certified for IoT for 共創ラボ
 
de:code 2019 Cloud トラック 総まとめ! 完全版
de:code 2019 Cloud トラック 総まとめ! 完全版de:code 2019 Cloud トラック 総まとめ! 完全版
de:code 2019 Cloud トラック 総まとめ! 完全版
 
20180319 ccon sync kintone
20180319 ccon sync kintone20180319 ccon sync kintone
20180319 ccon sync kintone
 
祝★AWSスタンダードコンサルティングパートナーに認定されました
祝★AWSスタンダードコンサルティングパートナーに認定されました祝★AWSスタンダードコンサルティングパートナーに認定されました
祝★AWSスタンダードコンサルティングパートナーに認定されました
 
MS-Office 製品からのkintoneデータ活用
MS-Office 製品からのkintoneデータ活用MS-Office 製品からのkintoneデータ活用
MS-Office 製品からのkintoneデータ活用
 
Data & AI Update 情報 - 2020年4月版
Data & AI Update 情報 - 2020年4月版Data & AI Update 情報 - 2020年4月版
Data & AI Update 情報 - 2020年4月版
 
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
 
db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也
 
JAZUG 9周年イベント 懇親会ライトニングトーク
JAZUG 9周年イベント 懇親会ライトニングトークJAZUG 9周年イベント 懇親会ライトニングトーク
JAZUG 9周年イベント 懇親会ライトニングトーク
 
オープンソースデータベース GridDBとそのオープンコミュニティ活動
オープンソースデータベース GridDBとそのオープンコミュニティ活動オープンソースデータベース GridDBとそのオープンコミュニティ活動
オープンソースデータベース GridDBとそのオープンコミュニティ活動
 

101210_データ分析初学者から見たAzure Databricks

  • 1. @2019 Knowledge Communication Co. Ltd 2019年12月10日 株式会社 ナレッジコミュニケーション 井村 真樹 データ分析初学者視点から見た Azure Databricks 【Azure データ分析シリーズ】
  • 2. @2019 Knowledge Communication Co. Ltd 自己紹介 名前: 井村 真樹 (いむら まさき) 所属: 株式会社 ナレッジコミュニケーション 興味: 新しい技術、音楽、キーボード 初学者目線で技術ブログを発信 https://qiita.com/Catetin0310 github.com/catetin/dbh/wiki ハンズオン資料公開中
  • 3. @2019 Knowledge Communication Co. Ltd 自己紹介 2019/3 まで 楽器音響機器メーカー 営業・マーケ系業務 ツール:Excelメイン、SQLすこし 2019/4 から ナレコム入社 データ関連の情報発信、資料作成、PMなどなど ツール:Databricks など
  • 4. @2019 Knowledge Communication Co. Ltd つまり、 エンジニアリング・データ分析 初学者 自己紹介
  • 5. @2019 Knowledge Communication Co. Ltd データ分析 初学者の目線から、 Azure Databricks を使ってみて感動したこと をお話しします アジェンダ
  • 6. @2019 Knowledge Communication Co. Ltd アジェンダ 1. エクセルでのデータ分析 ここがつらかった 2. Azure Databricks ここがすごい 3. データ処理業務がどう変わったか 4. ハンズオンで行う内容 5. さいごに
  • 7. @2019 Knowledge Communication Co. Ltd 1. エクセルでのデータ分析 Microsoft Excel 言わずと知れた表計算ソフト
  • 8. @2019 Knowledge Communication Co. Ltd 1. エクセルでのデータ分析 – 前提 ex. 業務システムからデータを抽出 → 月次のレポート作成
  • 9. @2019 Knowledge Communication Co. Ltd 1. エクセルでのデータ分析 – ロジックが埋もれがち • 複数テーブルを結合する 際には、vlookup 関数を 使用することが多い • 数式が入れ子になること も多く、結局この列で何 を計算しているのか不明 瞭になりやすい • 他のメンバーが引き継ぐ と、謎エクセルシートに なりがち
  • 10. @2019 Knowledge Communication Co. Ltd 1. エクセルでのデータ分析 – 運用の人的コストが高い グラフ化やピボット テーブル作成 → 結構な工数
  • 11. @2019 Knowledge Communication Co. Ltd 1. エクセルでのデータ分析 – 運用の人的コストが高い 慣れているほど、 気が付かない バージョン管理が難しい どれが最新かわからない。 作成者もわからない (あ りがち) 運用フローの整備 が必要。再現性維 持が大変
  • 12. @2019 Knowledge Communication Co. Ltd 1. エクセルでのデータ分析 – not スケーラブル • 処理の可否がローカルマシ ンのスペックに依存する • データ増える → フリーズ → 再設計 (工数) • 解消のためにPCメモリを増 設、はよく聞く話
  • 13. @2019 Knowledge Communication Co. Ltd 1. エクセルでのデータ分析 – まとめ • ロジックが埋もれがち • 運用の人的コストが高い • not スケーラブル
  • 14. @2019 Knowledge Communication Co. Ltd 2. Azure Databricks ここがすごい Azure Databricks データ加工から分析までを一体化したサービス
  • 15. @2019 Knowledge Communication Co. Ltd 2. Azure Databricks ここがすごい – 安心感のある環境 クラスタのオートター ミネーション有効化で、 従量課金化
  • 16. @2019 Knowledge Communication Co. Ltd 2. Azure Databricks ここがすごい – 安心感のある環境 タイムマシーン的な機 能がつかえるので、 バージョン管理が楽
  • 17. @2019 Knowledge Communication Co. Ltd 2. Azure Databricks ここがすごい – 安心感のある環境 コメントを Jupyter Notebook ライクに残 せるので、 ロジックが散逸しない
  • 18. @2019 Knowledge Communication Co. Ltd 2. Azure Databricks ここがすごい – 安心感のある環境 エンタープライズレベ ルのセキュリティ Azure Active Directory ID の管理とセキュリティ保護のため のユニバーサル プラットフォーム
  • 19. @2019 Knowledge Communication Co. Ltd 2. Azure Databricks ここがすごい – データの可視化が容易 発行したクエリの結果 を数クリックで視覚化 = すぐにデータの傾 向を確認可能
  • 20. @2019 Knowledge Communication Co. Ltd 2. Azure Databricks ここがすごい – 高速&スケーラブル ・Spark を作った人たちが 最適化、最新のバージョン で動作 ・雑なクエリを書いても、 自動的に最適化してくれる ・自動的にスケールアップ &スケールダウン分散処理コンピューティングフレームワーク。 データ並列性と対故障性を備えたクラスタ全体を構成
  • 21. @2019 Knowledge Communication Co. Ltd 2. Azure Databricks ここがすごい – Azure 内の連携 Cosmos DB (NoSQL DB) Azure Databricks (データ加工&簡易分析) Blob Data Lake (データレイク) Power BI (分析ダッシュボード) Azure Synapse (次世代データウェアハウス) Azure Machine Learning (機械学習) Data Factory (データ移動、パイプライン、 オーケストレーション) SQL Database (リレーショナルDB)
  • 22. @2019 Knowledge Communication Co. Ltd 2. Azure Databricks ここがすごい – Azure 内の連携 Power BI https://app.powerbi.com/view?r=eyJrIjoiOGFmOTM5NDEtNTZkMi00MmYxLWFmZDAtYzgzNWYxNjFlN2FlIiwidCI6IjYxNTc5NTU5LWNiM2EtNGZmYy1hOTVmLTkwNzYzMmJhNDRlOCJ9
  • 23. @2019 Knowledge Communication Co. Ltd 2. Azure Databricks ここがすごい – Azure 内の連携 Power BI https://app.powerbi.com/view?r=eyJrIjoiOGFmOTM5NDEtNTZkMi00MmYxLWFmZDAtYzgzNWYxNjFlN2FlIiwidCI6IjYxNTc5NTU5LWNiM2EtNGZmYy1hOTVmLTkwNzYzMmJhNDRlOCJ9
  • 24. @2019 Knowledge Communication Co. Ltd 2. Azure Databricks ここがすごい – Azure 内の連携 Power BI https://app.powerbi.com/view?r=eyJrIjoiOGFmOTM5NDEtNTZkMi00MmYxLWFmZDAtYzgzNWYxNjFlN2FlIiwidCI6IjYxNTc5NTU5LWNiM2EtNGZmYy1hOTVmLTkwNzYzMmJhNDRlOCJ9
  • 25. @2019 Knowledge Communication Co. Ltd 余談: Databricks ここが大変 – 初学者向けの情報が少ない • PySpark の進化が早く、 バージョン1系と2.0の情報 がウェブ上で混在 • そもそも PySpark を使い は玄人が多く、かみ砕いた 日本語の記事は少ない 公式ドキュメントを参照すれ ばOK (初心者向けの記事も発 信してるので見てね)
  • 26. @2019 Knowledge Communication Co. Ltd 2. Azure Databricks ここがすごい – まとめ • 安心感のある環境 • 簡単にデータを可視化 • 高速&スケーラブル • Azure 内の連携
  • 27. @2019 Knowledge Communication Co. Ltd 3. データ分析業務がどう変わったか
  • 28. @2019 Knowledge Communication Co. Ltd 3. データ分析業務がどう変わったか • 安心感 • 簡単にデータを可視化 • 高速&スケーラブル • Azure 内の連携 • ロジックが埋もれがち • 運用の人的コストが高い • not スケーラブル
  • 29. @2019 Knowledge Communication Co. Ltd 3. データ分析業務がどう変わったか • 安心感 • 簡単にデータを可視化 • 高速&スケーラブル • Azure 内の連携 • ロジックが埋もれがち • 運用の人的コストが高い • not スケーラブル
  • 30. @2019 Knowledge Communication Co. Ltd 3. データ分析業務がどう変わったか • 安心感 • 簡単にデータを可視化 • 高速&スケーラブル • Azure 内の連携 • ロジックが埋もれがち • 運用の人的コストが高い • not スケーラブル
  • 31. @2019 Knowledge Communication Co. Ltd 3. データ分析業務がどう変わったか • 安心感 • 簡単にデータを可視化 • 高速&スケーラブル • Azure 内の連携 • ロジックが埋もれがち • 運用の人的コストが高い • not スケーラブル
  • 32. @2019 Knowledge Communication Co. Ltd 3. データ分析業務がどう変わったか • 安心感 • 簡単にデータを可視化 • 高速&スケーラブル • Azure 内の連携 • ロジックが埋もれがち • 運用の人的コストが高い • not スケーラブル
  • 33. @2019 Knowledge Communication Co. Ltd 4. ハンズオンで行う内容 – 使用データ概要 出典元:Kaggle データ概要: Azure ブラジル市場最 大のデパートのeコマー スストアの売上情報 https://www.kaggle.com/olistbr/brazilian-ecommerce
  • 34. @2019 Knowledge Communication Co. Ltd 4. ハンズオンで行う内容 – 使用データ概要 出典元:Kaggle データ概要: Azure ブラジル市場最 大のデパートのeコマー スストアの売上情報 https://www.kaggle.com/olistbr/brazilian-ecommerce
  • 35. @2019 Knowledge Communication Co. Ltd 4. ハンズオンで行う内容 – ペルソナ 最近顧客満足度 (レビュースコア) が下がっているようだ原因を探って 改善策を練ろう。 ざっと見る限り、デリバリの遅れと 製品カテゴリに相関しそうだ。 まずは定量的に評価しやすいように、 視覚化してみよう。 Eコマースサイト運営者
  • 36. @2019 Knowledge Communication Co. Ltd 4. ハンズオンで行う内容 – Azure 環境 (再掲) Cosmos DB (NoSQL DB) Azure Databricks (データ加工&簡易分析) Blob Data Lake (データレイク) Power BI (分析ダッシュボード) Azure Synapse (次世代データウェアハウス) Azure Machine Learning (機械学習) Data Factory (データ移動、パイプライン、 オーケストレーション) SQL Database (リレーショナルDB)
  • 37. @2019 Knowledge Communication Co. Ltd 4. ハンズオンで行う内容 – スコープ Azure Databricks (データ加工&簡易分析) Blob Data Lake (データレイク) Power BI (分析ダッシュボード) ・このアーキテクチャを構築 ・ペルソナの課題に応じた簡易分析 ・分析ダッシュボードの作成 までを行います!
  • 38. @2019 Knowledge Communication Co. Ltd Azure Databricks から データ分析に入ったっていい! Excel で複雑な処理をしてる人 → すぐに導入を検討しましょう! 5. さいごに
  • 39. @2019 Knowledge Communication Co. Ltd さいごのさいごに データパイプライン AI / 機械学習 BI ツール 弊社で導入支援行っています。 本セミナーの後にもご相談を承ります!
  • 40. @2019 Knowledge Communication Co. Ltd ご清聴ありがとうございました