Submit Search
Upload
1000人規模で使う分析基盤構築 〜redshiftを活用したeuc
•
19 likes
•
7,346 views
K
Kazuhiro Miyajima
Follow
#TokyoWebmining 48thで使った資料です。 「1000人規模で使う分析基盤構築 〜Redshiftを活用したEUC」
Read less
Read more
Engineering
Report
Share
Report
Share
1 of 62
Download now
Download to read offline
Recommended
SmartNews の Webmining を支えるプラットフォーム
SmartNews の Webmining を支えるプラットフォーム
SmartNews, Inc.
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
Koichiro Sasaki
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Hideo Takagi
【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]
【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]
Hideo Takagi
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]
Hideo Takagi
2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートake
2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートake
Daiyu Hatakeyama
データサイエンティストが力を発揮できるアジャイルデータ活用基盤
データサイエンティストが力を発揮できるアジャイルデータ活用基盤
Recruit Lifestyle Co., Ltd.
Azure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data Lake
Hideo Takagi
Recommended
SmartNews の Webmining を支えるプラットフォーム
SmartNews の Webmining を支えるプラットフォーム
SmartNews, Inc.
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
Koichiro Sasaki
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Hideo Takagi
【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]
【ウェブ セミナー】AI 時代のクラウド データ ウェアハウス Azure SQL Data Warehouse [実践編]
Hideo Takagi
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [実践編]
Hideo Takagi
2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートake
2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートake
Daiyu Hatakeyama
データサイエンティストが力を発揮できるアジャイルデータ活用基盤
データサイエンティストが力を発揮できるアジャイルデータ活用基盤
Recruit Lifestyle Co., Ltd.
Azure Antenna はじめての Azure Data Lake
Azure Antenna はじめての Azure Data Lake
Hideo Takagi
分散グラフデータベース DataStax Enterprise Graph
分散グラフデータベース DataStax Enterprise Graph
Yuki Morishita
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
Hideo Takagi
Data platformdesign
Data platformdesign
Ryoma Nagata
Azure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/Spark
Ryoma Nagata
Azure Datalake 大全
Azure Datalake 大全
Daiyu Hatakeyama
平成最後の1月ですし、Databricksでもやってみましょうか
平成最後の1月ですし、Databricksでもやってみましょうか
Ryuichi Tokugami
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
Satoru Ishikawa
Azure Databricks 概要
Azure Databricks 概要
Kazunori Okura
IoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache Flink
Takanori Suzuki
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
Takahiro Moteki
Awsデータレイク事例祭り dmm.com YUKI SASITO.pdf
Awsデータレイク事例祭り dmm.com YUKI SASITO.pdf
YUKI SAITO
やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで
やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで
Daisuke Masubuchi
Microsoft Ignite 2019 最新アップデート - Azure Big Data Services を俯瞰的に眺める
Microsoft Ignite 2019 最新アップデート - Azure Big Data Services を俯瞰的に眺める
Daiyu Hatakeyama
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
Insight Technology, Inc.
DB TechShowcase Tokyo - Intelligent Data Platform
DB TechShowcase Tokyo - Intelligent Data Platform
Daiyu Hatakeyama
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
Tetsutaro Watanabe
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
Yosuke Katsuki
トレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解する
Takahiro Inoue
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
Recruit Technologies
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
Insight Technology, Inc.
AWSでのビッグデータ分析
AWSでのビッグデータ分析
Amazon Web Services Japan
オープニングトーク - 創設の思い・目的・進行方針 -データマイニング+WEB勉強会@東京
オープニングトーク - 創設の思い・目的・進行方針 -データマイニング+WEB勉強会@東京
Koichi Hamada
More Related Content
What's hot
分散グラフデータベース DataStax Enterprise Graph
分散グラフデータベース DataStax Enterprise Graph
Yuki Morishita
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
Hideo Takagi
Data platformdesign
Data platformdesign
Ryoma Nagata
Azure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/Spark
Ryoma Nagata
Azure Datalake 大全
Azure Datalake 大全
Daiyu Hatakeyama
平成最後の1月ですし、Databricksでもやってみましょうか
平成最後の1月ですし、Databricksでもやってみましょうか
Ryuichi Tokugami
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
Satoru Ishikawa
Azure Databricks 概要
Azure Databricks 概要
Kazunori Okura
IoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache Flink
Takanori Suzuki
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
Takahiro Moteki
Awsデータレイク事例祭り dmm.com YUKI SASITO.pdf
Awsデータレイク事例祭り dmm.com YUKI SASITO.pdf
YUKI SAITO
やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで
やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで
Daisuke Masubuchi
Microsoft Ignite 2019 最新アップデート - Azure Big Data Services を俯瞰的に眺める
Microsoft Ignite 2019 最新アップデート - Azure Big Data Services を俯瞰的に眺める
Daiyu Hatakeyama
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
Insight Technology, Inc.
DB TechShowcase Tokyo - Intelligent Data Platform
DB TechShowcase Tokyo - Intelligent Data Platform
Daiyu Hatakeyama
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
Tetsutaro Watanabe
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
Yosuke Katsuki
トレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解する
Takahiro Inoue
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
Recruit Technologies
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
Insight Technology, Inc.
What's hot
(20)
分散グラフデータベース DataStax Enterprise Graph
分散グラフデータベース DataStax Enterprise Graph
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]
Data platformdesign
Data platformdesign
Azure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/Spark
Azure Datalake 大全
Azure Datalake 大全
平成最後の1月ですし、Databricksでもやってみましょうか
平成最後の1月ですし、Databricksでもやってみましょうか
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
Azure Databricks 概要
Azure Databricks 概要
IoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache Flink
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
Awsデータレイク事例祭り dmm.com YUKI SASITO.pdf
Awsデータレイク事例祭り dmm.com YUKI SASITO.pdf
やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで
やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで
Microsoft Ignite 2019 最新アップデート - Azure Big Data Services を俯瞰的に眺める
Microsoft Ignite 2019 最新アップデート - Azure Big Data Services を俯瞰的に眺める
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢
DB TechShowcase Tokyo - Intelligent Data Platform
DB TechShowcase Tokyo - Intelligent Data Platform
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
トレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解する
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
Viewers also liked
AWSでのビッグデータ分析
AWSでのビッグデータ分析
Amazon Web Services Japan
オープニングトーク - 創設の思い・目的・進行方針 -データマイニング+WEB勉強会@東京
オープニングトーク - 創設の思い・目的・進行方針 -データマイニング+WEB勉強会@東京
Koichi Hamada
Tokyo r49 beginner
Tokyo r49 beginner
Takashi Minoda
○○でかんたんお部屋探し!
○○でかんたんお部屋探し!
Tohru Kobayashi
「Japan.R開催のお知らせ」と「Rでワンライナー」
「Japan.R開催のお知らせ」と「Rでワンライナー」
Atsushi Hayakawa
lubridateパッケージ入門
lubridateパッケージ入門
Takashi Kitano
RStanとShinyStanによるベイズ統計モデリング入門
RStanとShinyStanによるベイズ統計モデリング入門
Masaki Tsuda
機械の体を手に入れるのよ、鉄郎!!!
機械の体を手に入れるのよ、鉄郎!!!
Nagi Teramo
クラウド温泉への誘い 2015-08-01 「第48回データマイニング+WEB@東京」版
クラウド温泉への誘い 2015-08-01 「第48回データマイニング+WEB@東京」版
Yoshiyuki Nakamura
test deck
test deck
Yasushi Takeda
[よくわかるAmazon Redshift]Amazon Redshift最新情報と導入事例のご紹介
[よくわかるAmazon Redshift]Amazon Redshift最新情報と導入事例のご紹介
Amazon Web Services Japan
Asakusaによる分散分析基盤構築事例紹介
Asakusaによる分散分析基盤構築事例紹介
Kozo Fukugauchi
20150630_データ分析に最適な基盤とは? -コスト/スピードでビジネスバリューを得るために- by 株式会社インサイトテクノロジー CTO 石川雅也
20150630_データ分析に最適な基盤とは? -コスト/スピードでビジネスバリューを得るために- by 株式会社インサイトテクノロジー CTO 石川雅也
Insight Technology, Inc.
[C34] ビックデータ×マーケティング 進化するデジタルマーケティングを支えるビックデータ活用基盤 by Takatomo Kamatsu
[C34] ビックデータ×マーケティング 進化するデジタルマーケティングを支えるビックデータ活用基盤 by Takatomo Kamatsu
Insight Technology, Inc.
【Zansa】物理学はWebデータ分析に使えるか
【Zansa】物理学はWebデータ分析に使えるか
Zansa
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
Recruit Technologies
オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介
オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介
Satoshi Kitajima
大規模ログ分析におけるAmazon Web Servicesの活用
大規模ログ分析におけるAmazon Web Servicesの活用
Shintaro Takemura
はじめてのAmazon Redshift
はじめてのAmazon Redshift
Jun Okubo
データサイエンティスト スキルチェックリスト
データサイエンティスト スキルチェックリスト
The Japan DataScientist Society
Viewers also liked
(20)
AWSでのビッグデータ分析
AWSでのビッグデータ分析
オープニングトーク - 創設の思い・目的・進行方針 -データマイニング+WEB勉強会@東京
オープニングトーク - 創設の思い・目的・進行方針 -データマイニング+WEB勉強会@東京
Tokyo r49 beginner
Tokyo r49 beginner
○○でかんたんお部屋探し!
○○でかんたんお部屋探し!
「Japan.R開催のお知らせ」と「Rでワンライナー」
「Japan.R開催のお知らせ」と「Rでワンライナー」
lubridateパッケージ入門
lubridateパッケージ入門
RStanとShinyStanによるベイズ統計モデリング入門
RStanとShinyStanによるベイズ統計モデリング入門
機械の体を手に入れるのよ、鉄郎!!!
機械の体を手に入れるのよ、鉄郎!!!
クラウド温泉への誘い 2015-08-01 「第48回データマイニング+WEB@東京」版
クラウド温泉への誘い 2015-08-01 「第48回データマイニング+WEB@東京」版
test deck
test deck
[よくわかるAmazon Redshift]Amazon Redshift最新情報と導入事例のご紹介
[よくわかるAmazon Redshift]Amazon Redshift最新情報と導入事例のご紹介
Asakusaによる分散分析基盤構築事例紹介
Asakusaによる分散分析基盤構築事例紹介
20150630_データ分析に最適な基盤とは? -コスト/スピードでビジネスバリューを得るために- by 株式会社インサイトテクノロジー CTO 石川雅也
20150630_データ分析に最適な基盤とは? -コスト/スピードでビジネスバリューを得るために- by 株式会社インサイトテクノロジー CTO 石川雅也
[C34] ビックデータ×マーケティング 進化するデジタルマーケティングを支えるビックデータ活用基盤 by Takatomo Kamatsu
[C34] ビックデータ×マーケティング 進化するデジタルマーケティングを支えるビックデータ活用基盤 by Takatomo Kamatsu
【Zansa】物理学はWebデータ分析に使えるか
【Zansa】物理学はWebデータ分析に使えるか
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介
オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介
大規模ログ分析におけるAmazon Web Servicesの活用
大規模ログ分析におけるAmazon Web Servicesの活用
はじめてのAmazon Redshift
はじめてのAmazon Redshift
データサイエンティスト スキルチェックリスト
データサイエンティスト スキルチェックリスト
Similar to 1000人規模で使う分析基盤構築 〜redshiftを活用したeuc
Share pointを支えるsql server2014最新情報 tokyo_公開用
Share pointを支えるsql server2014最新情報 tokyo_公開用
Yukio Kumazawa
[db tech showcase Tokyo 2014] C31: PostgreSQLをエンタープライズシステムで利用しよう by PostgreS...
[db tech showcase Tokyo 2014] C31: PostgreSQLをエンタープライズシステムで利用しよう by PostgreS...
Insight Technology, Inc.
実践!DBベンチマークツールの使い方
実践!DBベンチマークツールの使い方
Fujishiro Takuya
[Japan Tech summit 2017] DAL 003
[Japan Tech summit 2017] DAL 003
Microsoft Tech Summit 2017
テスト駆動&オブジェクト指向ハンズオン
テスト駆動&オブジェクト指向ハンズオン
yuichi_kuwahara
テスト駆動&オブジェクト指向ハンズオン
テスト駆動&オブジェクト指向ハンズオン
yuichi_kuwahara
実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】
実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】
Tomoharu ASAMI
SQuBOKの変遷 (SQuBOK V3発行記念イベント)
SQuBOKの変遷 (SQuBOK V3発行記念イベント)
Keizo Tatsumi
M06_DX を担うエンジニア向け Data & AI Analytics プラットフォームの最適解 ~ Azure Synapse 最新機能ご紹介 ~ ...
M06_DX を担うエンジニア向け Data & AI Analytics プラットフォームの最適解 ~ Azure Synapse 最新機能ご紹介 ~ ...
日本マイクロソフト株式会社
オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜
オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜
griddb
2015.6.5 EMC主催OpenStackセミナー - 日本仮想化技術様講演スライド
2015.6.5 EMC主催OpenStackセミナー - 日本仮想化技術様講演スライド
EMC Japan
OpenStack最新動向と構築のポイント - EMC様セミナー 「あなたのビジネスを高速化! OpenStackが実現する戦略的なクラウドインフラ」
OpenStack最新動向と構築のポイント - EMC様セミナー 「あなたのビジネスを高速化! OpenStackが実現する戦略的なクラウドインフラ」
VirtualTech Japan Inc.
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニング
Yosuke Mizutani
ETロボコン2020 競技会場システムのおはなし
ETロボコン2020 競技会場システムのおはなし
Tetsuya Odashima
20180723 PFNの研究基盤 / PFN research system infrastructure
20180723 PFNの研究基盤 / PFN research system infrastructure
Preferred Networks
猿でもわかる DevOps
猿でもわかる DevOps
Tsuyoshi Miyake
Part 3: サーバーレスとシステム間連携基盤 (製造リファレンス・アーキテクチャ勉強会)
Part 3: サーバーレスとシステム間連携基盤 (製造リファレンス・アーキテクチャ勉強会)
Takeshi Fukuhara
Microsoft Tunnel 概要
Microsoft Tunnel 概要
Yutaro Tamai
Running Kubernetes on Azure
Running Kubernetes on Azure
Masaki Yamamoto
機械学習 / Deep Learning 大全 (5) Tool編
機械学習 / Deep Learning 大全 (5) Tool編
Daiyu Hatakeyama
Similar to 1000人規模で使う分析基盤構築 〜redshiftを活用したeuc
(20)
Share pointを支えるsql server2014最新情報 tokyo_公開用
Share pointを支えるsql server2014最新情報 tokyo_公開用
[db tech showcase Tokyo 2014] C31: PostgreSQLをエンタープライズシステムで利用しよう by PostgreS...
[db tech showcase Tokyo 2014] C31: PostgreSQLをエンタープライズシステムで利用しよう by PostgreS...
実践!DBベンチマークツールの使い方
実践!DBベンチマークツールの使い方
[Japan Tech summit 2017] DAL 003
[Japan Tech summit 2017] DAL 003
テスト駆動&オブジェクト指向ハンズオン
テスト駆動&オブジェクト指向ハンズオン
テスト駆動&オブジェクト指向ハンズオン
テスト駆動&オブジェクト指向ハンズオン
実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】
実装(2) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第31回】
SQuBOKの変遷 (SQuBOK V3発行記念イベント)
SQuBOKの変遷 (SQuBOK V3発行記念イベント)
M06_DX を担うエンジニア向け Data & AI Analytics プラットフォームの最適解 ~ Azure Synapse 最新機能ご紹介 ~ ...
M06_DX を担うエンジニア向け Data & AI Analytics プラットフォームの最適解 ~ Azure Synapse 最新機能ご紹介 ~ ...
オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜
オープンソースのIoT向けスケールアウト型データベース GridDB 〜性能ベンチマーク結果とOSSを利用したビッグデータ分析環境〜
2015.6.5 EMC主催OpenStackセミナー - 日本仮想化技術様講演スライド
2015.6.5 EMC主催OpenStackセミナー - 日本仮想化技術様講演スライド
OpenStack最新動向と構築のポイント - EMC様セミナー 「あなたのビジネスを高速化! OpenStackが実現する戦略的なクラウドインフラ」
OpenStack最新動向と構築のポイント - EMC様セミナー 「あなたのビジネスを高速化! OpenStackが実現する戦略的なクラウドインフラ」
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニング
ETロボコン2020 競技会場システムのおはなし
ETロボコン2020 競技会場システムのおはなし
20180723 PFNの研究基盤 / PFN research system infrastructure
20180723 PFNの研究基盤 / PFN research system infrastructure
猿でもわかる DevOps
猿でもわかる DevOps
Part 3: サーバーレスとシステム間連携基盤 (製造リファレンス・アーキテクチャ勉強会)
Part 3: サーバーレスとシステム間連携基盤 (製造リファレンス・アーキテクチャ勉強会)
Microsoft Tunnel 概要
Microsoft Tunnel 概要
Running Kubernetes on Azure
Running Kubernetes on Azure
機械学習 / Deep Learning 大全 (5) Tool編
機械学習 / Deep Learning 大全 (5) Tool編
1000人規模で使う分析基盤構築 〜redshiftを活用したeuc
1.
1000人規模で使う 分析基盤構築 ∼Redshiftを活用したEUC∼ 株式会社クラウドソース 宮島 一浩 1
2.
1. はじめに(3分) 2. プロジェクトの概要(10分) 3.
アーキテクチャ(10分) 4. データ活用プロセス(5分) 5. 技術以外の課題(5分) 6. 技術的な課題(5分) 7. 質疑応答(20分) 目次 2
3.
1. はじめに(3分) 2. プロジェクトの概要(10分) 3.
アーキテクチャ(10分) 4. データ活用プロセス(5分) 5. 技術以外の課題(5分) 6. 技術的な課題(5分) 7. 質疑応答(20分) 目次 3
4.
自己紹介 • 宮島 一浩 • 株式会社クラウドソース 代表取締役 CloudSource,
Inc. • SINCE 2011/3 4 みやじま かずひろ on Facebook 1. はじめに
5.
こんなことやってます •システム開発(Web / iOS
/ Android) アジア圏オフショア開発(ミャンマー・ベトナム・中国) •AWSコンサルティング 導入、設計、構築、運用支援 •データ分析サービス 導入、ツール選定、設計、構築、運用支援 5 1. はじめに
6.
•システム開発(Web / iOS
/ Android) アジア圏オフショア開発(ミャンマー・ベトナム・中国) •AWSコンサルティング 導入、設計、構築、運用支援 •データ分析サービス 導入、ツール選定、設計、構築、運用支援 こんなことやってます 6 1. はじめに
7.
今日の本題です 7 1. はじめに
8.
1000人規模で使う 分析基盤構築 ∼Redshiftを活用したEUC∼ 8 1. はじめに
9.
1000人規模で使う 分析基盤構築 ∼Redshiftを活用したEUC∼ 9 何これ?これが聞きたい 唯一目新しい? End User Computing 1.
はじめに
10.
今日の概要 1. いわゆるエンタープライズ寄りな内容が 大半です 2. 具体的な分析内容などは出て来ません 3.
インフラはもちろんAWS 10 1. はじめに excuse
11.
今日の概要 1. いわゆるエンタープライズ寄りな内容が 大半です • ある上場企業での取り組みのお話 •
売上2000億、社員1000人 • 業種:メインは卸売、制作∼物流∼小売 M&Aでいろんな業態が混在。今後もM&Aで新規分野に参入 11 1. はじめに
12.
今日の概要 2. 具体的な分析内容などは出て来ません • データ分析は、重回帰分析、ABC分析、時系列データ分析 (SARIMA、移動平均など)くらい •
こんな感じでデータ活用しようとしている人達がいるよ、と いうお話です • データ量はそれなりに多いですが、ペタ単位といった超大量 でもないです(3年後で数十TB) 12 1. はじめに
13.
今日の概要 3. インフラはもちろんAWS • ただしオンプレ基幹システムからデータ連携します •
Redshift, DataPipeline, RDS, EC2, S3,Gracier, SQS, DirectConnect • 可視化ツールはしょぼいので割愛 →Excel活用頻度は高いです →有力3製品の比較調査はやりましたが… →可視化ツールの話は議論でぜひ 13 1. はじめに
14.
1. はじめに(3分) 2. プロジェクトの概要(10分) 3.
アーキテクチャ(10分) 4. データ活用(5分) 5. 技術以外の課題(5分) 6. 技術的な課題(5分) 7. 質疑応答(20分) 目次 14
15.
15 2. プロジェクトの概要 きっかけは、 基幹システムのリニューアル 当初、分析の「ぶ」の字もなかった
16.
16 2. プロジェクトの概要 きっかけは、 基幹システムのリニューアル 当初、分析の「ぶ」の字もなかった 新基幹システムは直近データのみ素早く扱う 開発も少数精鋭・アジャイル採用
17.
17 2. プロジェクトの概要 きっかけは、 基幹システムのリニューアル 当初、分析の「ぶ」の字もなかった 新基幹システムは直近データのみ素早く扱う 開発も少数精鋭・アジャイル採用 データ蓄積とレポートは後からゆっくり →DWH+BIの分析基盤を構築しよう!
18.
コンセプト 1. 営業が提案に使えるデータ基盤 2. 気付きと思考を続ける仕組み 3.
データと分析結果の共有 18 2. プロジェクトの概要
19.
コンセプト 19 2. プロジェクトの概要 1. 営業が提案に使えるデータ基盤 •
卸業なので、基本はB2Bの商談ベースの営業 どの商品を奨めるか、およびその根拠が肝 →提案型営業への移行 • 提案した商品の売上を収集・蓄積して、次回以降に活用 蓄積・改善することで提案精度を高める • 提案に活用できる「使えるデータはないか?」「収集した方 がよいデータはないか?」を考えることが重要
20.
コンセプト 20 2. プロジェクトの概要 2. 気付きと思考を続ける仕組み •
社員一人ひとりが、ルーチンワークだけではなく、より利益 を上げるための工夫を続けようとする仕組み • 「人が主役、システムは脇役」 考える・決めるのは人、システムはデータ・分析結果・可視 化などで思考をサポート • 理想は、売上の80%は仕組みで誰でも達成可能、残り20% を人の智恵で生み出す
21.
コンセプト 21 2. プロジェクトの概要 3. データと分析結果の共有 •
「誰か一人の智恵→全員に」 全体の生産性向上、 属人化・部分最適・現場最適 • システム部門としてのビジョン 1. EUC実現: 自由度と満足度の提供 2. ITサービスを提供する部門への転身: 利用料の徴収の仕組み化 3. 社内のITリテラシー向上: システム部門→他部署に転属で実現 TCOの削減 (お前らちょっとしたことで問い合わせしてくんな…)
22.
コンセプト 1. 営業が提案に使えるデータ基盤 2. 気付きと思考を続ける仕組み 3.
データと分析結果の共有 22 2. プロジェクトの概要 上記を通じた意識の変革 1. 常に考えろ 2. みんなのためになれ(個を評価) 3. 組織・会社全体の売上を意識せよ
23.
1. はじめに(3分) 2. プロジェクトの概要(10分) 3.
アーキテクチャ(10分) 4. データ活用(5分) 5. 技術以外の課題(5分) 6. 技術的な課題(5分) 7. 質疑応答(20分) 目次 23
24.
アーキテクチャ概要 24 3. アーキテクチャ EDI 受発注 & 販売在庫 入出庫 & 現物在庫 経理 & 資金回収 マスタデータ&ルール管理 DWH + BI 分析基盤
25.
受発注 & 販売在庫 入出庫 & 現物在庫 アーキテクチャ概要 25 EDI DWH + BI 分析基盤 経理 & 資金回収 マスタデータ&ルール管理 ここが データの終着点 3. アーキテクチャ
26.
アーキテクチャ概要 26 DWH+BI 基幹 システム RedshiftS3 EC2 (可視化ツール) Excel Data PipelineData
Pipeline 3. アーキテクチャ
27.
アーキテクチャ概要 27 DWH+BI 基幹 システム RedshiftS3 Excel 新基幹 システム あれ、スキーマ 変わってる EC2 (可視化ツール) Data PipelineData
PipelineData Pipeline X 3. アーキテクチャ
28.
アーキテクチャ概要 28 DWH+BI 基幹 システム RedshiftS3 Excel 新基幹 システム S3 Redshift EC2 (可視化ツール) あれ、データを 更新できないの? Data
PipelineData Pipeline 3. アーキテクチャ
29.
アーキテクチャ概要 29 DWH+BI 基幹 システム RedshiftS3 Excel 新基幹 システム S3 EC2 (可視化ツール) ExcelEC2 (MartBuilder) Redshift Redshift Data
PipelineData Pipeline 3. アーキテクチャ
30.
30 iDC 基幹システム 社内PC 社内N/W 専用線 Direct Connect RDSRedshift SG: db, common VPC
Private Subnet 10.200.0.0/24 SG: web, common バッチ 起動 SG:batch,common EC2 Auto scaling Group Availability Zone CAvailability Zone A VPC Public Subnet 10.200.2.0/24 NAT S3 Data Pipeline Glacier Logging Redshift インスタンス化 &実行指示 VPC Private Subnet 10.200.3.0/24 VPC Public Subnet 10.200.1.0/24 2年以前分を バックアップ 10.200.0.151 テスト サーバ 10.200.3.151 アーキテクチャ(AWS的表現) 3. アーキテクチャ
31.
アーキテクチャ 31 DWH+BI 基幹 システム RedshiftS3 Excel 新基幹 システム S3 EC2 (可視化ツール) ExcelRedshift Redshift Data
PipelineData Pipeline 3. アーキテクチャ EC2 (MartBuilder)
32.
アーキテクチャ 32 基幹 システム RedshiftS3 Excel 新基幹 システム S3 EC2 (可視化ツール) ExcelEC2 (Uploader) Redshift Redshift Data
PipelineData Pipeline Data Pipeline DWH+BI 3. アーキテクチャ Original New Upload data mart 共通 Redshift内のスキーマ
33.
アーキテクチャ 33 基幹 システム RedshiftS3 Excel 新基幹 システム S3 EC2 (可視化ツール) ExcelEC2 (Uploader) Redshift Redshift Data
PipelineData Pipeline Data Pipeline DWH+BI 3. アーキテクチャ
34.
アーキテクチャ 34 基幹 システム RedshiftS3 Excel 新基幹 システム S3 EC2 (可視化ツール) ExcelEC2 (Uploader) Redshift Redshift Data
PipelineData Pipeline Data Pipeline DWH+BI 3. アーキテクチャ
35.
1. はじめに(3分) 2. プロジェクトの概要(10分) 3.
アーキテクチャ(10分) 4. データ活用(5分) 5. 技術以外の課題(5分) 6. 技術的な課題(5分) 7. 質疑応答(20分) 目次 35
36.
データ活用プロセス 36 計画 データ 整備 実装 業務での 施策実行 効果検証 次策検討 4. データ活用
37.
データ活用プロセス 37 計画 データ 整備 実装 業務での 施策実行 効果検証 次策検討 誰が どの数値 なぜ、どう いつ どの程度 効果は? 人的プロセス 収集対象 更新者 取得頻度 加工内容 データの アップロード 計画実行 人が行動を 変える 予実比較 結果まとめ 継続/終了 継続なら 次策計画 4. データ活用
38.
データ活用プロセス 38 計画 データ 整備 実装 業務での 施策実行 効果検証 次策検討 人的プロセス 収集対象 更新者 取得頻度 加工内容 計画実行 人が行動を 変える 予実比較 結果まとめ 継続/終了 継続なら 次策計画 システム的プロセス データ取込 ビュー作成 マート作成 桁型変換 単位揃え 日付付与 タイムシリーズ レポート作成 予測精度検証 データ測定 4. データ活用 誰が どの数値 なぜ、どう いつ どの程度 効果は? データの アップロード
39.
データ活用プロセス 39 計画 データ 整備 実装 業務での 施策実行 効果検証 次策検討 人的プロセス 収集対象 更新者 取得頻度 加工内容 計画実行 人が行動を 変える 予実比較 結果まとめ 継続/終了 継続なら 次策計画 システム的プロセス データ取込 ビュー作成 マート作成 桁型変換 単位揃え 日付付与 タイムシリーズ レポート作成 予測精度検証 データ測定分析基盤 4. データ活用 誰が どの数値 なぜ、どう いつ どの程度 効果は? データの アップロード
40.
データ活用事例 •ある地域だけで特定カテゴリの商品が売れている → 商品特性と人口統計 •特定カテゴリの商品は、連休前に集中して売れている → 商品特性と時期 •市場全体の規模はあまり変わらないので、あるヒット商品が出る と他の商品の売上が下がる →
ツリーマップ •ある地域では定番商品が売れていない → 視聴率(というか視聴可能エリア)と製品特性 40 4. データ活用
41.
41 データ 分析 気づき 感覚 検証 発見 思考を続ける仕組み 4. データ活用
42.
42 皆さんはどちらが 多いですか? 「ナウい」のはこっち データ 分析 気づき 感覚 検証 発見 ちなみに… 多いのはまだこっち 4. データ活用
43.
1. はじめに(3分) 2. プロジェクトの概要(10分) 3.
アーキテクチャ(10分) 4. データ活用(5分) 5. 技術以外の課題(5分) 6. 技術的な課題(5分) 7. 質疑応答(20分) 目次 43
44.
経営との考えの乖離 課題 経営の考えが現場作業に反映されない 現場での工夫や実績が経営に認められない 解決策 中期経営計画と連動した部署毎の計画と現 場の施策 44 5. 技術以外の課題
45.
経営との考えの乖離 45 5. 技術以外の課題 経営 GM
部長 リーダー 中期経営計画 目標立案 行動立案 行動計画 年間数値目標 年間売上目標 年間売上目標 年間売上目標 日々の活動KPIKGIKSF
46.
部署間の調整 課題 データのメンテナンス・有効性の担保 各部署で作成したデータの全社共有化 解決策 データ活用専門部署の組織化 46 5. 技術以外の課題
47.
データ分析の経験者不足 課題 Excel分析アドインすら使える人がいない 解決策 統計についての教育、育成 機械学習活用の環境構築 オープンデータを扱いやすいように整備 (単位合わせ、時系列化) 47 5. 技術以外の課題
48.
1. はじめに(3分) 2. プロジェクトの概要(10分) 3.
アーキテクチャ(10分) 4. データ活用(5分) 5. 技術以外の課題(5分) 6. 技術的な課題(5分) 7. 質疑応答(20分) 目次 48
49.
AWS的スペック •Redshift: dc1.large x
13ノード •EC2: r3.xlarge x 2台 •RDS: db.t2.micro x 2台 •DataPipeline: c3.large 処理は4∼5本 49
50.
Redshift ETL •独自のRuby+Javaコード •カラム・日本語ー英語名・型マッピング •DataPipelineで実行 •毎日差分取込→View経由→マート作成(これは毎日全入替) •毎日2GBB増加 •全プロセス完了まで2時間程度 •マート200GB、5億行 50 6. 技術的な課題
51.
Redshift 同時接続数とパフォーマンス •1000人使ったときの性能予測 •Aurora検討も断念 •MySQLでindexとパラメータでチューニングしても、特定のクエリは良くなっ ても他がダメ → Redshiftすごい! •dc1.8xlarge x
1ノードよりもdc1.large x 8ノードの方が安いし速い •そもそも1ノードで使えない(データ欠損)ので2ノード基本 •マートは非正規化 •正規化の場合と比較して10倍速い場合も •distkeyは未指定でラウンドロビン •allを指定したりしたが遅かった •sortkeyは主に日付カラム 51 6. 技術的な課題
52.
Redshift データ容量と利用料金性能 •料金予測 •圧縮方式 •独自でカラム毎に指定(AUTOでもよいのかも) •容量計算 •最低ブロックサイズがカラム数に応じて計算され、スラ イス数分確保される ←しかもこのサイズ分課金 •真っ先にリザーブドインスタンスを検討 52 6. 技術的な課題
53.
Redshift データ保持期間とバックアップ •会計データは2年オンライン、7年保持義務 •それ以外の過去データの分析要求 •3年分保持、その後Gracierへ •ただし、絶対3年以前のデータも見たいハズなので、様 子見ながら保持期間決定 •バックアップは月1回S3に •S3でも30日後にGracierに自動移行設定 53 6. 技術的な課題
54.
Redshift データの中身 •文字コードとバイト数 •元テーブルのカラム定義がEBCDIC •半角の仮名文字は1バイト→3バイトに,標準漢字は2バイト→3バ イトに •元テーブル定義の3倍を確保 ←でも一応4倍してます •TimeZone •UTCに変換して入れるべし ←これ一択 •入出力はJSTをUTCとして扱っても問題ないが、システム時間を使 う処理(バッチなど)で困る 54 6. 技術的な課題
55.
Redshift データの中身 •データ型と桁数 •DB2互換DB400のメタデータと合わせて解決 •char型で日付とか変換要 •何が正解? •既存データと数値がズレる →どっちが正しいの? •締め処理前後で数値が変わる →どっちが(ry •データが入っていない行、本来の使われ方ではない行 •アノマリーデータとするしかない 55 6. 技術的な課題
56.
Redshift RedshiftとRails •ActiveRecordはNG •理由は…わかりますよね •ActiveRecordが使えないと、便利なgemの 多くが使えないので困ることに •COPYコマンドはキューで実行 •lambdaを検討したが1分の壁で断念 →SQSで対応予定 56 6. 技術的な課題
57.
Redshift 新たな分類とマッピング •例えば商品に新たなカテゴリを設ける •大量の分類が必要 •分類指定→分類対象検索→ひもづけ、という 一連の作業専用機能をMartBuilderに追加 57 6. 技術的な課題
58.
まとめ 58
59.
1000人規模で使う 分析基盤構築 ∼Redshiftを活用したEUC∼ 59 まとめ
60.
1000人規模で使う 分析基盤構築 ∼Redshiftを活用したEUC∼ 60 意図伝わった?なんかわかった? 使えそう? End User Computing まとめ
61.
今後の展望 •統計的データ分析、機械学習の活用 Pandasサポートまだかよ… •外部データの取込拡大とAPI化 AWS API Gateway活用 •MartBuilderの販売? 61
62.
ご静聴 ありがとうございました 62 miyazima@cloudsource.co.jp Facebook: Kazuhiro Miyajima
Download now