SlideShare a Scribd company logo
Submit Search
Upload
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
Report
Share
T
Techon Organization
Follow
•
1 like
•
888 views
1
of
28
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
•
1 like
•
888 views
Report
Share
Download Now
Download to read offline
Engineering
Tech-on MeetUp Online#02「もしエンタープライズのエンジニアがデータ分析をやることになったら」 @yutah_3 さんの資料です。
Read more
T
Techon Organization
Follow
Recommended
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版) by
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
Satoshi Nagayasu
9K views
•
39 slides
データ分析を支える技術 DWH再入門 by
データ分析を支える技術 DWH再入門
Satoru Ishikawa
3.9K views
•
57 slides
AWSで作る分析基盤 by
AWSで作る分析基盤
Yu Otsubo
7.3K views
•
118 slides
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話) by
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
Tokoroten Nakayama
9.4K views
•
34 slides
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101) by
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
Yosuke Katsuki
3.5K views
•
34 slides
ビッグデータ処理データベースの全体像と使い分け 2018年version by
ビッグデータ処理データベースの全体像と使い分け 2018年version
Tetsutaro Watanabe
21.2K views
•
59 slides
More Related Content
What's hot
データ収集の基本と「JapanTaxi」アプリにおける実践例 by
データ収集の基本と「JapanTaxi」アプリにおける実践例
Tetsutaro Watanabe
19.6K views
•
30 slides
DMBOKをベースにしたデータマネジメント by
DMBOKをベースにしたデータマネジメント
Kent Ishizawa
34.4K views
•
61 slides
超実践 Cloud Spanner 設計講座 by
超実践 Cloud Spanner 設計講座
Samir Hammoudi
21.3K views
•
26 slides
マルチテナントのアプリケーション実装〜実践編〜 by
マルチテナントのアプリケーション実装〜実践編〜
Yoshiki Nakagawa
4.2K views
•
36 slides
データ分析を支える技術 データ分析基盤再入門 by
データ分析を支える技術 データ分析基盤再入門
Satoru Ishikawa
5.7K views
•
39 slides
Data platformdesign by
Data platformdesign
Ryoma Nagata
1.5K views
•
51 slides
What's hot
(20)
データ収集の基本と「JapanTaxi」アプリにおける実践例 by Tetsutaro Watanabe
データ収集の基本と「JapanTaxi」アプリにおける実践例
Tetsutaro Watanabe
•
19.6K views
DMBOKをベースにしたデータマネジメント by Kent Ishizawa
DMBOKをベースにしたデータマネジメント
Kent Ishizawa
•
34.4K views
超実践 Cloud Spanner 設計講座 by Samir Hammoudi
超実践 Cloud Spanner 設計講座
Samir Hammoudi
•
21.3K views
マルチテナントのアプリケーション実装〜実践編〜 by Yoshiki Nakagawa
マルチテナントのアプリケーション実装〜実践編〜
Yoshiki Nakagawa
•
4.2K views
データ分析を支える技術 データ分析基盤再入門 by Satoru Ishikawa
データ分析を支える技術 データ分析基盤再入門
Satoru Ishikawa
•
5.7K views
Data platformdesign by Ryoma Nagata
Data platformdesign
Ryoma Nagata
•
1.5K views
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ by Recruit Technologies
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
Recruit Technologies
•
59.8K views
Apache Avro vs Protocol Buffers by Seiya Mizuno
Apache Avro vs Protocol Buffers
Seiya Mizuno
•
5.3K views
イミュータブルデータモデル(入門編) by Yoshitaka Kawashima
イミュータブルデータモデル(入門編)
Yoshitaka Kawashima
•
185.9K views
Apache Atlasの現状とデータガバナンス事例 #hadoopreading by Yahoo!デベロッパーネットワーク
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
Yahoo!デベロッパーネットワーク
•
6.2K views
イミュータブルデータモデルの極意 by Yoshitaka Kawashima
イミュータブルデータモデルの極意
Yoshitaka Kawashima
•
23.8K views
Cookpad TechConf 2016 - DWHに必要なこと by Minero Aoki
Cookpad TechConf 2016 - DWHに必要なこと
Minero Aoki
•
45.7K views
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」 by Takuto Wada
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
Takuto Wada
•
148.8K views
MonotaRO のデータ活用と基盤の過去、現在、未来 by 株式会社MonotaRO Tech Team
MonotaRO のデータ活用と基盤の過去、現在、未来
株式会社MonotaRO Tech Team
•
13.4K views
マルチテナント化で知っておきたいデータベースのこと by Amazon Web Services Japan
マルチテナント化で知っておきたいデータベースのこと
Amazon Web Services Japan
•
9K views
暗号技術の実装と数学 by MITSUNARI Shigeo
暗号技術の実装と数学
MITSUNARI Shigeo
•
9.6K views
SolrとElasticsearchを比べてみよう by Shinsuke Sugaya
SolrとElasticsearchを比べてみよう
Shinsuke Sugaya
•
52.3K views
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤 by Amazon Web Services Japan
Kinesis + Elasticsearchでつくるさいきょうのログ分析基盤
Amazon Web Services Japan
•
5.1K views
データ分析基盤を支えるエンジニアリング by Recruit Lifestyle Co., Ltd.
データ分析基盤を支えるエンジニアリング
Recruit Lifestyle Co., Ltd.
•
9.8K views
ビッグデータ処理データベースの全体像と使い分け by Recruit Technologies
ビッグデータ処理データベースの全体像と使い分け
Recruit Technologies
•
31.7K views
Similar to 初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App... by
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
Google Cloud Platform - Japan
1.8K views
•
55 slides
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ! by
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
Takashi Okawa
1.8K views
•
57 slides
ビッグデータ活用とサーバー基盤 by
ビッグデータ活用とサーバー基盤
日本ヒューレット・パッカード株式会社
732 views
•
30 slides
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装 by
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
de:code 2017
4K views
•
56 slides
For Power BI Beginners by
For Power BI Beginners
Tomoyuki Oota
2.8K views
•
59 slides
【最小限の学習コスト】効率的なビッグデータ収集・連携とは? by
【最小限の学習コスト】効率的なビッグデータ収集・連携とは?
株式会社クライム
225 views
•
42 slides
Similar to 初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
(20)
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App... by Google Cloud Platform - Japan
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
Google Cloud Platform - Japan
•
1.8K views
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ! by Takashi Okawa
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
Takashi Okawa
•
1.8K views
ビッグデータ活用とサーバー基盤 by 日本ヒューレット・パッカード株式会社
ビッグデータ活用とサーバー基盤
日本ヒューレット・パッカード株式会社
•
732 views
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装 by de:code 2017
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
de:code 2017
•
4K views
For Power BI Beginners by Tomoyuki Oota
For Power BI Beginners
Tomoyuki Oota
•
2.8K views
【最小限の学習コスト】効率的なビッグデータ収集・連携とは? by 株式会社クライム
【最小限の学習コスト】効率的なビッグデータ収集・連携とは?
株式会社クライム
•
225 views
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2) by 日本マイクロソフト株式会社
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
日本マイクロソフト株式会社
•
296 views
AIOpsで実現する効率化 OSC 2022 Online Spring TIS by Daisuke Ikeda
AIOpsで実現する効率化 OSC 2022 Online Spring TIS
Daisuke Ikeda
•
690 views
Part 4: Power Platform 概説 (製造リファレンス・アーキテクチャ勉強会) by Takeshi Fukuhara
Part 4: Power Platform 概説 (製造リファレンス・アーキテクチャ勉強会)
Takeshi Fukuhara
•
971 views
カスタマーサクセスのためのデータ整備人の活動記録 by syou6162
カスタマーサクセスのためのデータ整備人の活動記録
syou6162
•
7K views
ビッグデータ分析基盤が直面する課題をオブジェクトストレージで解決 by CLOUDIAN KK
ビッグデータ分析基盤が直面する課題をオブジェクトストレージで解決
CLOUDIAN KK
•
2.6K views
分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28) by Ryusuke Ashiya
分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)
Ryusuke Ashiya
•
360 views
Big data解析ビジネス by Mie Mori
Big data解析ビジネス
Mie Mori
•
3.5K views
先行事例から学ぶ IoT / ビッグデータの始め方 by Cloudera Japan
先行事例から学ぶ IoT / ビッグデータの始め方
Cloudera Japan
•
5.1K views
Data × AI でどんな業務が改善できる? 製造業様向け Data × AI 活用ユースケース & 製造MVPソリューションのご紹介 by IoTビジネス共創ラボ
Data × AI でどんな業務が改善できる? 製造業様向け Data × AI 活用ユースケース & 製造MVPソリューションのご紹介
IoTビジネス共創ラボ
•
540 views
MLOps Course Slides_JP(配布用).pdf by Yuya Yamamoto
MLOps Course Slides_JP(配布用).pdf
Yuya Yamamoto
•
412 views
リクルート式ビッグデータ活用術 by Recruit Technologies
リクルート式ビッグデータ活用術
Recruit Technologies
•
31.3K views
え?まだフルスクラッチで開発してるの!?Power Platform をフル活用すると普通にシステムができるんですよ by Yugo Shimizu
え?まだフルスクラッチで開発してるの!?Power Platform をフル活用すると普通にシステムができるんですよ
Yugo Shimizu
•
5.6K views
データ分析基盤について by Yuta Inamura
データ分析基盤について
Yuta Inamura
•
2.3K views
【2017年5月時点】セルフサービスBIからエンタープライズまで展開できるOracle Business Analytics クラウドプラットフォームのご紹介 by オラクルエンジニア通信
【2017年5月時点】セルフサービスBIからエンタープライズまで展開できるOracle Business Analytics クラウドプラットフォームのご紹介
オラクルエンジニア通信
•
929 views
More from Techon Organization
心理学・行動経済学を活用した行動変容とAI by
心理学・行動経済学を活用した行動変容とAI
Techon Organization
615 views
•
22 slides
ポスター掲示板オープンデータ化の裏側 by
ポスター掲示板オープンデータ化の裏側
Techon Organization
196 views
•
10 slides
静岡県が目指す「VIRTUAL SHIZUOKA構想」とは? by
静岡県が目指す「VIRTUAL SHIZUOKA構想」とは?
Techon Organization
302 views
•
37 slides
マルチクラウドの悩み by
マルチクラウドの悩み
Techon Organization
520 views
•
8 slides
Tech-on MeetUp#10 「NW-JAWS × Tech-on 勉強会#01」アンケート集計結果 by
Tech-on MeetUp#10 「NW-JAWS × Tech-on 勉強会#01」アンケート集計結果
Techon Organization
527 views
•
14 slides
NW-JAWS × Tech-on#01 LT NWaaS(ナース)って、なんなーすか? by
NW-JAWS × Tech-on#01 LT NWaaS(ナース)って、なんなーすか?
Techon Organization
336 views
•
12 slides
More from Techon Organization
(20)
心理学・行動経済学を活用した行動変容とAI by Techon Organization
心理学・行動経済学を活用した行動変容とAI
Techon Organization
•
615 views
ポスター掲示板オープンデータ化の裏側 by Techon Organization
ポスター掲示板オープンデータ化の裏側
Techon Organization
•
196 views
静岡県が目指す「VIRTUAL SHIZUOKA構想」とは? by Techon Organization
静岡県が目指す「VIRTUAL SHIZUOKA構想」とは?
Techon Organization
•
302 views
マルチクラウドの悩み by Techon Organization
マルチクラウドの悩み
Techon Organization
•
520 views
Tech-on MeetUp#10 「NW-JAWS × Tech-on 勉強会#01」アンケート集計結果 by Techon Organization
Tech-on MeetUp#10 「NW-JAWS × Tech-on 勉強会#01」アンケート集計結果
Techon Organization
•
527 views
NW-JAWS × Tech-on#01 LT NWaaS(ナース)って、なんなーすか? by Techon Organization
NW-JAWS × Tech-on#01 LT NWaaS(ナース)って、なんなーすか?
Techon Organization
•
336 views
Tech on#9 by Techon Organization
Tech on#9
Techon Organization
•
414 views
Tech-on MeetUp#09_closing by Techon Organization
Tech-on MeetUp#09_closing
Techon Organization
•
175 views
Tech-on MeetUp#09 Microsoft資料 by Techon Organization
Tech-on MeetUp#09 Microsoft資料
Techon Organization
•
757 views
Tech-on MeetUp#09 hitachi資料 by Techon Organization
Tech-on MeetUp#09 hitachi資料
Techon Organization
•
530 views
Tech-on MeetUp#09 KDDI資料 by Techon Organization
Tech-on MeetUp#09 KDDI資料
Techon Organization
•
552 views
Tech-on#8 「ロボティクス〜人と生活を支えるTech〜」 アンケート集計結果 by Techon Organization
Tech-on#8 「ロボティクス〜人と生活を支えるTech〜」 アンケート集計結果
Techon Organization
•
1K views
Tech-on MeetUp#08クロージング by Techon Organization
Tech-on MeetUp#08クロージング
Techon Organization
•
403 views
Connected Robotics「ロボットと一緒に働くお店をつくる」 by Techon Organization
Connected Robotics「ロボットと一緒に働くお店をつくる」
Techon Organization
•
591 views
Techh on#7 アンケート集計結果 by Techon Organization
Techh on#7 アンケート集計結果
Techon Organization
•
886 views
Tech-on1周年のあゆみと#07クロージング by Techon Organization
Tech-on1周年のあゆみと#07クロージング
Techon Organization
•
824 views
Tech-on MeetUp#06「What can AI(I) do?」 アンケート集計結果 by Techon Organization
Tech-on MeetUp#06「What can AI(I) do?」 アンケート集計結果
Techon Organization
•
3K views
Tech on#06 SXSW2019に見るAIの未来 帆足啓一郎様@KDDI総合研究所 by Techon Organization
Tech on#06 SXSW2019に見るAIの未来 帆足啓一郎様@KDDI総合研究所
Techon Organization
•
4.5K views
Tech on#06 強化学習を使った次世代シミュレーション最適化 Eduardo Gonzalez様@skymind by Techon Organization
Tech on#06 強化学習を使った次世代シミュレーション最適化 Eduardo Gonzalez様@skymind
Techon Organization
•
1.6K views
Tech-on MeetUp#05「xR meets Everything 〜VR/AR/MRが変える日常と取り巻く技術たち〜」 アンケート集計結果 by Techon Organization
Tech-on MeetUp#05「xR meets Everything 〜VR/AR/MRが変える日常と取り巻く技術たち〜」 アンケート集計結果
Techon Organization
•
3.4K views
Recently uploaded
こんな私がアクセシビリティ? 〜入り口に立ってモノの見方が広がった話〜.pdf by
こんな私がアクセシビリティ? 〜入り口に立ってモノの見方が広がった話〜.pdf
kenshirofujita
10 views
•
12 slides
システム概要.pdf by
システム概要.pdf
Taira Shimizu
44 views
•
1 slide
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私 by
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私
修治 松浦
213 views
•
36 slides
概要.pdf by
概要.pdf
Taira Shimizu
6 views
•
1 slide
ウォーターフォール開発で生 産性を測る指標 by
ウォーターフォール開発で生 産性を測る指標
Kouhei Aoyagi
62 views
•
13 slides
onewedge_companyguide1 by
onewedge_companyguide1
ONEWEDGE1
89 views
•
22 slides
Recently uploaded
(6)
こんな私がアクセシビリティ? 〜入り口に立ってモノの見方が広がった話〜.pdf by kenshirofujita
こんな私がアクセシビリティ? 〜入り口に立ってモノの見方が広がった話〜.pdf
kenshirofujita
•
10 views
システム概要.pdf by Taira Shimizu
システム概要.pdf
Taira Shimizu
•
44 views
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私 by 修治 松浦
JISTA月例会2023年12月 書籍『3カ月で改善!システム障害対応実践ガイド』ご紹介+失敗学と障害対応と私
修治 松浦
•
213 views
概要.pdf by Taira Shimizu
概要.pdf
Taira Shimizu
•
6 views
ウォーターフォール開発で生 産性を測る指標 by Kouhei Aoyagi
ウォーターフォール開発で生 産性を測る指標
Kouhei Aoyagi
•
62 views
onewedge_companyguide1 by ONEWEDGE1
onewedge_companyguide1
ONEWEDGE1
•
89 views
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
1.
初めてのデータ分析基盤構築をまかされた、 その時何を考えておくと良いのか 2020/07/27 Tech-on MeetUp
Online #2 「もしエンタープライズのエンジニアがデータ分析をやることになったら」 @yutah_3
2.
自己紹介 普段のお仕事 ● データ分析や DB
周りで困っているお客様への技術的ご支援を しております ● チームを動きやすく、データドリブン/データインスパイアな意思 決定をするべく社内 DWH のデータマートの整備やデータ分析 を日常的にやっています ● BigQuery ユーザーでもあり、コンサルでもあります ● 日経 xTech Learning 等に寄稿したりしています ” Googleエンジニアと学ぶ GCP[ビッグデータ]” https://xtech.nikkei.com/atcl/learning/lecture/19/00089/ #本日は個人としての登壇であり、所属する企業、 団体を代表する意見ではありませんが、 私の経験上 GCP (Google Cloud) の話が多くなります。 寳野 雄太 | Yuta Hono Head of Specialist Customer Engineering (Analytics & DB) Google Cloud Twitter : @yutah_3
3.
本日のお話 ● 気をつけたいデータ分析プロジェクト ● そもそも、「データ分析をするぞ!」って・・・? ●
あるある注意点とその解決例
4.
気をつけたい データ分析プロジェクト
5.
こんな経験、ありませんか? DX※ に力入れたくて、データ 分析、始めたいんだよね、い い感じにしてよ! あ、はい、わかりました 何をすればいいん だろう・・・ ※ Digital Transformation
の略 以下、いらすとや さんのイラストを利用させていただき、 ゆるーくいきます。
6.
気をつけたいデータ分析プロジェクト とりあえず箱をつくろう。 アプリ DB アプリ サーバーログ その他 (IoT, 非構造, 半 構造データ ) データレイク 完
7.
そもそも、 「データ分析をするぞ!」 って・・・?
8.
そもそも何をしたいのか掘り下げ なぜデータ分析するんでしょうか? いまはやっていないのでしょうか? 進捗把握をしたい ● 定形ダッシュボード 原因見つけたい ● アドホック分析 ●
データマイニング ● BIツールのドリルダウン 売上をあげたい ● レコメンド(ML) ● セグメンテーション (ML) データ分析の例(MECEではない) 意思決定したい (データインスパイア、データドリブン) ● カスタマイズしたレポート (含む、データの裏側の理由)
9.
そもそも何をしたいのか掘り下げ なぜデータ分析するんでしょうか? いまはやっていないのでしょうか? 進捗把握をしたい ● 定形ダッシュボード 原因見つけたい ● アドホック分析 ●
データマイニング ● BIツールのドリルダウン 売上をあげたい ● レコメンド(ML) ● セグメンテーション (ML) データ分析の例(MECEではない) 意思決定したい (データインスパイア、データドリブン) ● カスタマイズしたレポート (含む、データの裏側の理由) 本日は時間の都合上割愛 データ分析ではドメイン知識や ビジネス課題の発見、設定がとても重要ですが 今日はエンジニア向けなので、基盤の話に振ります。
10.
(データ基盤の) あるある注意点と その解決例
11.
課題1 . 初期投資できない アプリ DB アプリ サーバーログ その他 (IoT,
非構造, 半構造 データ ) データレイク 将来的には 10 PiB でもまずは 1 GiB / 月 10 PiBはサービスがあたったときの試算 データソースは徐々に増やしていく 総インフラ XX 億円の 稟議、取れますか?
12.
解決例 1 .
クラウドを利用する データレイク オブジェクトストレージ等、 クラスタを作らず利用できるもの が相性良 例 : Google Cloud Storage データ分析基盤と 従量課金のクラウドは相性が良い。 大抵の場合、 データ分析基盤自体は お金を直接産まない。 ビジネス成果を 見せて投資を増やしてもらう。 アプリ DB アプリ サーバーログ その他 (IoT, 非構造, 半構造 データ )
13.
課題2 . (狭義の)データレイクにデータ入れっぱなし アプリ DB アプリ サーバーログ その他 (IoT,
非構造, 半構造 データ ) データレイク 分析できない / しない ?
14.
解決例 2. DWH
にデータを入れる データは DWH に格納 あるいはデータレイクとしている ストレージに 分析クエリをかけられる技術を利用 (トレードオフ : パフォーマンス) 理想的な アーキテクチャでは こうだが・・・ ※ETL : Extract, Transform, Load の略 データを取り出し、変換し整形しながら DB などにロードをすることを指す。 アプリ DB アプリ サーバーログ その他 (IoT, 非構造, 半構造 データ ) データレイク DWH ※ETL
15.
課題3. DWH が用途・部署ごとに乱立(サイロ化) アプリ DB アプリ サーバーログ その他 (IoT,
非構造, 半構造 データ ) データレイク (例:物理ストレージが 異なる、バケットやアカ ウントが異なる) 実態は: ● 用途・責任別に乱立 各 DWH がクラスタやアカウントが異な る ● 隣の DWH に欲しいデータがあるの で、DWH から DWH へのデータコピー も発生、二重持ち ● 同じデータが気づかず隣りにあって、同 じ ETL を隣でしていることも ● どこにどのデータがコピーされたのか 管理が難しく、混乱 / 高コストへ DWH (例:クラスタが異なる) ETL
16.
解決例 3. 組織を超えてデータの全社最適化 DWH マルチテナントの
DWH を活用: (例 : BigQuery 等 - Google 社内でもよく使ってます。) ● リージョンで1つの仮想的な「箱」 ● 権限で制御、社内でデータシェアしたい場合には 権限を付与するだけ 外部漏洩防止機能は要確認 ● データコピーなしにデータ共有、 JOIN ができる ● データを社外から買い付けて即時利用可能 (商用データセット, トムソン・ロイターとCitibank の市場データ事例) ● 副次的に、規模の経済が活きる 自分だけで大きな DWHクラスタを構築する必要なく 十分なパフォーマンスを得られる. コストもクエリ・ストレージとも に従量課金。(!= クラスタ課金) アプリ A ログ アプリ B ログ 基幹 DB データ 課金データ デバイスログ IAMや 追加の制御機構 ※ 経済産業省の DX推進指標とそのガイダンス でも「データを、部門を超えて全社最適で活用できる か」というテーマが入ってますね ※追加の制御機構には BigQuery の場合、データ持ち出しや IP 制限などを実現する VPC Service Controls や列レベルアクセス 、テーブル ACL などがあります
17.
結論? データがかんたんにシェア できるシステムが整った! 社内のデータ資産を活かし、 データ活用が加速! No. これだけではベースライン. 体制やスキルなども考慮.
18.
このデータどこから来てる? 信用できるデータ? 課題4. データマート責任者不在、効率低下 BI ツール スプレッドシート Jupyter
Notebooks クエリ DWH ビジネスユーザー/ データアナリスト データ サイエンティスト 情報系アプリ もっとこういうデータが欲しいけど・・・ 自分で交渉しないとだめ? もっとこういう集計形式にしてほしいけ ど、BI ツール側の計算フィールド追加 するの嫌だなぁ・・・ トランザクション日だけでなく、四半期 とかのカラムもほしい。 このデータどういう意味だっけ?
19.
解決例 4. データのイテレーションを回す データ追加、フォーマット整備、マート整備、カタログ、リネージュ
etc. ビジネスユーザー/ データアナリスト データサイエンティスト データアーキテクト/ データエンジニア ELT/ETL を見直し要望に答える データマート整備を実現& データソース交渉は任せろ! データカタログやリネージュも 整備してくけど、ドメインナレッジは手伝ってね! よりビジネスの貢献に つかう時間が増えた! もっと X できる? データから知見を 発見する部分やモデルの開 発に専念できる! もっと Y できる? BI ツール スプレッドシート Jupyter Notebooks クエリ DWH 情報系アプリ ※データガバナンスの世界ではデータ スチュワードと呼びます。エンジニアが 兼務するのか業務側がやるのか別途 悩ましい。
20.
課題5. データ分析する人のスキルとツールが合わない BI ツール スプレッドシート クエリ DWH ビジネスユーザー 情報系アプリ データ基盤を整えた後、 よくある声: ●
やっぱりスプレッドシートで ダウンロードしたい (ダウンロードした時期が違うデータを VLOOKUP とか、あ りますよね・・・) ● BI ツールの使い方覚えるの難しい ● クエリ書くのに黒い画面(コンソール) 見るの嫌だ ● クエリ書くときにデータセットをselect * (snip) LIMIT 10 とかして 中身みるのは面倒・・・ アナリスト IT 部門 基盤・ツール整備したのに データ抽出依頼が減らない ・・・
21.
解決例 5. ユーザーフレンドリーなツールをつかいながら ユーザー教育する(外部の力もつかうことを検討) ※G
Suite Update ブログから引用 例. Connected Sheets ※: Spreadsheet の関数やピボットテーブルを BigQuery のクエリにして実行し、描写や使い勝手は Spreadsheet だが、最新の情報を取り出せる。 =使い勝手 Spreadsheet そのまま =ローカル取り出しでデータが stale しない =スケーラビリティは BigQuery が担保 例. BigQuery コンソール : データセットが UI から探せる。テーブルの中身をプレ ビューしながらクエリをかけるのはイメージが湧きやす い。テーブルのカラムに説明を加えることもできる。 メタ データ管理の Data Catalog とも連動。 =スキーマ設計書と行き来しなくてよい =こんなデータあるかな?を検索できる
22.
課題6. データの活用による新しい課題 従来: ● 限られたユーザーが限られたデータ活用しかし ないので、 インデックスチューニングを頑張るOR
DWH を ユーザーごとにわける データ活用が進むと: ● 全データ、一箇所にあってほしい ● アドホックが増えるので、パターンが読めず、イ ンデックスチューニングできない ● セルフサービスBI などにより、クエリ数が増え るので、クエリづまりが起きる ● データアーキテクトの仕事も増えるので、定期 的な DWH のメンテなども時間をかけられない DWH ビジネスユーザー アナリスト IT 部門 気合でインデックスチューニング しようとしたけど次々と新しいユース ケースが。もう無理なので、新しい データ入れるのやめてください! 重いクエリ投げた 人が一人いて DWH が動いてい ません・・・
23.
解決例 6a. 力技 ※
BigQuery ドキュメント「スロット」より引用。 データセンターレベルのスケーラビリティを利用すると インデックスを持たずともあらゆるクエリパターンに高速な分析可能に(力技) 例. BigQuery のクエリ処理の様子: ● 基本的にクエリを複数のワーカーで分散して処理 する ● 複数のワーカーの単位を「スロット」とよぶ ● 場合によっては普通に1 万以上つかうこともある ● 最速で終わるように自動で分散処理を最適化 ● 力技でクエリを実行するのでインデックスを持た ず、基本は対象データのフルスキャンをする = インデックスを持たなくても高速 マスタ ワーカー 分散ディスク ワーカー ワーカー... ... 分散 インメモリ シャッフル 横にスケールさせる (スケールアウトの思想)
24.
解決例 6b. 動的なクエリプラン ※
BigQuery ドキュメント「スロット」より引用。 ※ 優先順位はBigQuery Reservations で設定する 先に実行されたクエリが DB のリソースを 食いつぶしたまま居残り、後続をブロックしない 例. BigQuery のクエリ処理の様子: ● クエリプランは全て動的 ● 全クエリでのパフォーマンス最適化を行うために、 後続の並列クエリが来たら、実行中のクエリの割 当リソースを最適化して後続のクエリも実行できる ようにする ● (実行優先順位、割当優先も設定できる) ● よくいう「クエリづまり」が起きづらい
25.
解決例 6c. サーバーレス
DWH をつかう ハードウェア クラウド上の DWH インデックス、 クラスタ管理、高可用 性担保 データの整理 データマートの管理 メタデータ管理 データ活用 BI, MLデータ サイエンティスト, サービス企画 データアーキテクト クラウドエンジニア よりよいデータ活用には、 データアーキテクトが必要 クラウド管理から、データ活用にフォーカス サーバーレス DWH に 任せる 例 : BigQuery よりビジネス付加価値の高い 技術にフォーカス より使いやすいデータ、 でデータ活用を推進
26.
まとめ データ基盤を考える際には、データ要件に対応できるイテレーションを回せるような体制づくりが重要 ● データ整備にフォーカスできるようなリソースのかけ方を目指す ● 新しいスキル習得が必要な場合もある、ギャップを小さくするツールからまず慣れる データ活用がエンタープライズで進むと、アドホックなクエリが増える(あるいは
BI ツールを通したアドホッ ク) ● インデックスチューニングは諦めて、並列分散処理するような DWH で力技を検討 ● クエリの並列性に対応しやすい、動的なクエリプランで実行できる DWH を考慮に入れる ● マルチテナントだと規模の経済が生きる! ビジネス成果を出すことにフォーカスできるような 基盤を考えて段々と作っていきましょう!
27.
おわり? いい感じのデータ基盤が できた!
28.
さいごに データエンジニアの戦いはまだまだ続く! で、今度はリアルタイムに 指標見たいな! あと、売上着地予想出してほし いな!AI ってやつで! 投資とセットなら 喜んで! データガバナンスとか Trusted Data
ってやつをね。やっていこ うと思うんですよ。 この間のアレ(ダッシュボード)す ごい良かったよ! etc. (データ基盤はビジネス要求と密接に関わります。こういうことを言われなくても、常にビジネス要求を 先取りして進化させる必要があります。一緒に頑張りましょう。)