Home
Explore
Submit Search
Upload
Login
Signup
Advertisement
Check these out next
AWSのNoSQL入門
Akihiro Kuwano
ビッグデータ処理データベースの全体像と使い分け
Recruit Technologies
Apache Arrow - データ処理ツールの次世代プラットフォーム
Kouhei Sutou
がっつりMongoDB事例紹介
Tetsutaro Watanabe
Elasticsearchを使うときの注意点 公開用スライド
崇介 藤井
Amazon Redshiftによるリアルタイム分析サービスの構築
Minero Aoki
イミュータブルデータモデル(入門編)
Yoshitaka Kawashima
モノタロウの1900万商品を検索する Elasticsearch構築運用事例(2022-10-26 第50回Elasticsearch 勉強会発表資料)
株式会社MonotaRO Tech Team
1
of
40
Top clipped slide
Cookpad TechConf 2016 - DWHに必要なこと
Jan. 25, 2016
•
0 likes
53 likes
×
Be the first to like this
Show More
•
45,397 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Report
Technology
Cookpad TechConf 2016での青木の発表資料。大量のデータを最大限に活用するためのデータ処理システムの構築方針について
Minero Aoki
Follow
Engineer at COOKPAD Inc.
Advertisement
Advertisement
Advertisement
Recommended
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
Recruit Technologies
59.6K views
•
45 slides
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
Satoshi Nagayasu
8.7K views
•
39 slides
Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜
Takahiko Ito
1.2K views
•
27 slides
ビッグデータ処理データベースの全体像と使い分け 2018年version
Tetsutaro Watanabe
21K views
•
59 slides
イミュータブルデータモデルの極意
Yoshitaka Kawashima
22.5K views
•
28 slides
Data platformdesign
Ryoma Nagata
1.4K views
•
51 slides
More Related Content
Slideshows for you
(20)
AWSのNoSQL入門
Akihiro Kuwano
•
13K views
ビッグデータ処理データベースの全体像と使い分け
Recruit Technologies
•
31.5K views
Apache Arrow - データ処理ツールの次世代プラットフォーム
Kouhei Sutou
•
7.5K views
がっつりMongoDB事例紹介
Tetsutaro Watanabe
•
22.8K views
Elasticsearchを使うときの注意点 公開用スライド
崇介 藤井
•
30.1K views
Amazon Redshiftによるリアルタイム分析サービスの構築
Minero Aoki
•
33.2K views
イミュータブルデータモデル(入門編)
Yoshitaka Kawashima
•
170.4K views
モノタロウの1900万商品を検索する Elasticsearch構築運用事例(2022-10-26 第50回Elasticsearch 勉強会発表資料)
株式会社MonotaRO Tech Team
•
445 views
Snowflake Architecture and Performance(db tech showcase Tokyo 2018)
Mineaki Motohashi
•
12.6K views
WayOfNoTrouble.pptx
Daisuke Yamazaki
•
3K views
Amazon Redshift パフォーマンスチューニングテクニックと最新アップデート
Amazon Web Services Japan
•
13.6K views
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
Tokoroten Nakayama
•
9.2K views
エンジニアの個人ブランディングと技術組織
Takafumi ONAKA
•
22.4K views
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
•
52.5K views
データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
•
4K views
データモデリング・テクニック
Hidekatsu Izuno
•
17.3K views
開発速度が速い #とは(LayerX社内資料)
mosa siru
•
58K views
[Cloud OnAir] BigQuery の仕組みからベストプラクティスまでのご紹介 2018年9月6日 放送
Google Cloud Platform - Japan
•
16.1K views
SQLアンチパターン - 開発者を待ち受ける25の落とし穴 (拡大版)
Takuto Wada
•
69.9K views
AWS Black Belt Online Seminar 2018 Amazon DynamoDB Advanced Design Pattern
Amazon Web Services Japan
•
56K views
Viewers also liked
(20)
クラウド運用のベストプラクティスを考える - OpenStack最新情報セミナー(2016年12月)
VirtualTech Japan Inc.
•
2.1K views
第6回 itil講義資料
Mugen Fujii
•
1.9K views
実務で活かせる AWSアーキテクチャ設計 〜AWS re:Invent 2016アップデート最新版〜
真吾 吉田
•
2.2K views
手っ取り早くプロジェクトをなんとかしたい人のためのnanapi流ツール活用術~WebSig会議 vol.34「Webディレクター必見!プロジェクトを成功に...
WebSig24/7
•
10.8K views
仕事の成果は「聞き方」で9割決まる
Katsuhito Okada
•
3.7K views
クックパッドの開発プロセス
Hiroyuki Inoue
•
15.1K views
オブジェクト指向を学んで図解力、仕事力アップ
Haruo Sato
•
7.1K views
今年のOss業界10大ニュース
Yukio Yoshida
•
1.7K views
仕事に活きる数学講座(第四回:予測力編)
schoowebcampus
•
1.3K views
日々の気づきをふりかえり、 個人とチームの成長につなげる方法
株式会社コパイロツト COPILOT Inc.
•
1.7K views
AWS クックパッドの運用事例
Satoshi Takada
•
12.2K views
[DO05] システムの信頼性を上げるための新しい考え方 SRE ( Site Reliability Engineering ) in Azure, o...
de:code 2017
•
8.3K views
4時間で学ぶ、効率的な自動テストスクリプトのメンテナンス
Nozomi Ito
•
22.1K views
5分で分かるサイボウズのSRE
uchan_nos
•
2K views
hbstudy 74 Site Reliability Engineering
Ryuji Tamagawa
•
5.3K views
全文検索でRedmineをさらに活用!
Kouhei Sutou
•
11.4K views
Cookpadの料理画像を分類した話
Shunsuke KITADA
•
976 views
いまの Office 365 ってこんな感じ?
Hirofumi Ota
•
7.3K views
ITサービスマネジメントとSRE
真吾 吉田
•
8.9K views
技術者の自分が11年間会社を経営して学んだ7つのこと
Haruo Sato
•
6.2K views
Advertisement
Similar to Cookpad TechConf 2016 - DWHに必要なこと
(20)
避けては通れないビッグデータ周辺の重要課題
kurikiyo
•
3.7K views
ビッグデータによる価値創造を実現するデータ収集・蓄積・分析クラウドサービス “簡単!賢く!データを活かす!”東芝データレイクサービスの取り組みのご紹介
griddb
•
494 views
データ分析を支える技術 DWH再入門
Satoru Ishikawa
•
3.7K views
データ集計基盤のいままでとこれから 〜Hadoopからdataflowまで使い込んだ経験を徹底共有〜
Kazuhiro Mitsuhashi
•
2.3K views
Big data解析ビジネス
Mie Mori
•
3.5K views
ビッグデータ&データマネジメント展
Recruit Technologies
•
6.4K views
情報爆発シンポジウム infoplosion
Rakuten Group, Inc.
•
1.4K views
レコメンデーション(協調フィルタリング)の基礎
Katsuhiro Takata
•
5.3K views
ビッグデータ時代にむけて/濱田 正彦
Takumi Kurosawa
•
652 views
アドネットワークのデータ解析チームを支える技術
hagino 3000
•
25.4K views
Hadoopカンファレンス2013
Recruit Technologies
•
8.2K views
ビッグデータ活用とサーバー基盤
日本ヒューレット・パッカード株式会社
•
732 views
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
Kensuke SAEKI
•
4.4K views
Markezine day 2012 gdo nakazawa
Shinya Nakazawa
•
1.3K views
スタートアップが始める機械学習はじめの一歩
Kimitaka Nakazawa
•
1.3K views
国内最大級の総合情報メディアを支えるVarnish Cache
Kazuto Ohara
•
1.6K views
Strata + Hadoop World 2014 レポート #cwt2014
Cloudera Japan
•
2.2K views
jubatus pressrelease
JubatusOfficial
•
8.8K views
データの見える化で進めるデータドリブンカンパニー #devsumiC
Yahoo!デベロッパーネットワーク
•
2.4K views
[Cloud OnAir] データ ウェアハウス モダナイゼーション 2019年10月17日 放送
Google Cloud Platform - Japan
•
1.4K views
Recently uploaded
(20)
DrupalをDockerで起動してみる
iPride Co., Ltd.
•
22 views
OpenJDKのコミッタってどんなことしたらなったの?解決してきた技術課題の事例から見えてくる必要な知識と技術(JJUG CCC 2023 Spring)
NTT DATA Technology & Innovation
•
166 views
JSAI2023_企画セッション(仕掛学)資料
Matsushita Laboratory
•
24 views
JSONEncoderで詰まった話
とん とんぼ
•
144 views
通信プロトコルについて
iPride Co., Ltd.
•
7 views
量子論.pdf
hiro150493
•
9 views
GitHub と Azure でアプリケーションとインフラストラクチャの守りを固めるDevSecOps
Kazumi IWANAGA
•
6 views
CDLEハッカソン2022参加報告.pdf
SHOIWA1
•
10 views
HTTPの仕組みについて
iPride Co., Ltd.
•
11 views
AIEXPO_CDLE名古屋紹介
KotaMiyano
•
4 views
社内ソフトスキルを考える
infinite_loop
•
90 views
点群SegmentationのためのTransformerサーベイ
Takuya Minagawa
•
13 views
3Dプリンタって いいね
infinite_loop
•
64 views
【DL輪読会】大量API・ツールの扱いに特化したLLM
Deep Learning JP
•
126 views
JSTQB_テストプロセスの概念モデル.pdf
akipii Oga
•
259 views
Üslup ve tercüme.pdf
1Hmmtks
•
2 views
20230523_IoTLT_vol99_kitazaki_v1.pdf
Ayachika Kitazaki
•
112 views
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab
•
16 views
OIDC(OpenID Connect)について解説③
iPride Co., Ltd.
•
25 views
統計学の攻略_正規分布ファミリーの全体像.pdf
akipii Oga
•
259 views
Advertisement
Cookpad TechConf 2016 - DWHに必要なこと
DWHに必要なこと ∼1人で始めるCIO∼ Minero Aoki
自己紹介 ‣ 青木峰郎(あおき みねろう) ‣
元Rubyコミッター ‣ 分析システム「たべみる」開発 ‣ データ分析基盤エンジニア ‣ 著書多数→
データ活用基盤 今日のテーマ
やりたいこと 大量のデータを 最高に活用したい
やりたいこと 大量のデータを 最高に活用したい ユーザーコンタク トの一元管理 ターゲティング広告 ユーザー行動の分析 アプリのA/Bテスト
DWH (Data Warehouse) が
その解となる
DWHとは ‣ 90年代に提唱されたデータ分析アーキテクチャ ‣ 大量のデータを集めて部署横断で分析 ‣
Bill Inmonが定義(DWHの父と呼ばれている)
DWH = 分析用のきれいなDB
(DWHでない) 普通のDBは汚い
DWHをどう作るか
がんばる
基本方針1. データは一箇所に集める
アプリB ターゲティ ング広告 DB アプリC 行動分析 DB アプリD ABテスト DB アプリA コンタクト 管理 DB 乱立する分析システム
アプリB ターゲティ ング広告 DB アプリC 行動分析 DB アプリD ABテスト DB アプリA コンタクト 管理 DB 乱立する分析システム ダメ
なぜダメか ‣ データを集めるのがつらすぎ…… ‣ 指標の定義が違う!(PVって?
UUって?) ‣ 元データがよくわからない
あるべきすがた アプリA アプリB アプリC
アプリD コンタクト 管理 ターゲティ ング広告 行動分析 ABテスト データベース
DBなににする? • クックパッドでは全面的にRedshiftをDWHとして 使うことにした • 速い •
安い • 普通のSQLが使える
アーキテクチャ Redshift (DWH) マスター Cookpad 広告配信システム ログ マスター ログ マスター ログ マスター ログ ログ マスター 各種サービス ログ マスター 連携システム Re:dash Jupyter Tableau 独自バッチシステム (Bricolage)
データを集めれば DWHか?
もちろん違う
データを集めただけ
DWH
データは加工しないと DWHにはならない
どのように加工するか?
DWHの4つの条件 Integrated Subject- Oriented Time- Variant Non- Volatile
DWHの4つの条件 Integrated Subject- Oriented Time- Variant Non- Volatile略
10年戦える データ分析入門 青木峰郎著 ソフトバンククリエイティブ 詳細は本で
基本方針2. DWHはなりゆきで作る
アプリケーションが先! DWHがあと! Redshift 元データ DWH 活用先ごと Cookpad 広告配信 動画配信 …… コンタクト 管理 ターゲティ ング広告 ユーザー 行動分析 ABテスト as-is
3NF 3NF/Star 構築順(1) 構築順(2)構築順(3)
共通ライブラリ としてのDWH
基本方針3. SQLですべてを処理する
よい例 Redshift テーブル テーブル テーブル INSERT SELECT INSERT SELECT
Redshift テーブル テーブル テーブル ダメな例 RubyRuby SELEC T IN SER T SELEC T IN SER T
ポイント ウェブとDWHでは 同じSQL/RDBでも 使いかたが違う
まとめ
DWHに必要なこと
データは 一箇所に集める
DWHは なりゆきでつくる
すべてをSQLで処理
同じSQLでも ウェブとDWHは別物
Advertisement