Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
EN
Uploaded by
Recruit Lifestyle Co., Ltd.
PPTX, PDF
10,048 views
データ分析基盤を支えるエンジニアリング
・リクルートライフスタイルのデータ分析基盤の紹介 ・データ分析基盤に必要なエンジニアリング リクルートライフスタイル 白鳥昇治
Data & Analytics
◦
Read more
22
Save
Share
Embed
Embed presentation
Download
Downloaded 57 times
1
/ 46
2
/ 46
3
/ 46
4
/ 46
5
/ 46
6
/ 46
7
/ 46
8
/ 46
9
/ 46
10
/ 46
11
/ 46
12
/ 46
13
/ 46
14
/ 46
15
/ 46
16
/ 46
17
/ 46
18
/ 46
19
/ 46
20
/ 46
21
/ 46
22
/ 46
23
/ 46
24
/ 46
25
/ 46
26
/ 46
27
/ 46
28
/ 46
29
/ 46
30
/ 46
31
/ 46
32
/ 46
33
/ 46
34
/ 46
35
/ 46
36
/ 46
37
/ 46
38
/ 46
39
/ 46
40
/ 46
41
/ 46
42
/ 46
43
/ 46
44
/ 46
45
/ 46
46
/ 46
More Related Content
PDF
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
by
Satoshi Nagayasu
PDF
Snowflake Architecture and Performance
by
Mineaki Motohashi
PDF
異次元のグラフデータベースNeo4j
by
昌桓 李
PDF
PostgreSQL13でのpg_basebackupの改善について(第13回PostgreSQLアンカンファレンス@オンライン)
by
NTT DATA Technology & Innovation
PDF
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
by
Recruit Technologies
PPTX
データ収集の基本と「JapanTaxi」アプリにおける実践例
by
Tetsutaro Watanabe
PPTX
S3 整合性モデルと Hadoop/Spark の話
by
Noritaka Sekiyama
PPTX
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
by
NTT DATA Technology & Innovation
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
by
Satoshi Nagayasu
Snowflake Architecture and Performance
by
Mineaki Motohashi
異次元のグラフデータベースNeo4j
by
昌桓 李
PostgreSQL13でのpg_basebackupの改善について(第13回PostgreSQLアンカンファレンス@オンライン)
by
NTT DATA Technology & Innovation
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
by
Recruit Technologies
データ収集の基本と「JapanTaxi」アプリにおける実践例
by
Tetsutaro Watanabe
S3 整合性モデルと Hadoop/Spark の話
by
Noritaka Sekiyama
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
by
NTT DATA Technology & Innovation
What's hot
PDF
シリコンバレーの「何が」凄いのか
by
Atsushi Nakada
PDF
イミュータブルデータモデルの極意
by
Yoshitaka Kawashima
PDF
Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)
by
Amazon Web Services Japan
PPTX
え!?データがオンプレにあるけどPower BI で BI したいの?
by
Yugo Shimizu
PDF
入社1年目のプログラミング初心者がSpringを学ぶための手引き
by
土岐 孝平
PPTX
kubernetes初心者がKnative Lambda Runtime触ってみた(Kubernetes Novice Tokyo #13 発表資料)
by
NTT DATA Technology & Innovation
PPTX
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
by
NTT DATA Technology & Innovation
PDF
実践!OpenTelemetry と OSS を使った Observability 基盤の構築(CloudNative Days Tokyo 2022 発...
by
NTT DATA Technology & Innovation
PPTX
Prometheus入門から運用まで徹底解説
by
貴仁 大和屋
PDF
データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)
by
株式会社MonotaRO Tech Team
PPTX
がっつりMongoDB事例紹介
by
Tetsutaro Watanabe
PPTX
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
by
NTT DATA Technology & Innovation
PDF
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
by
Takuto Wada
PDF
DDD x CQRS 更新系と参照系で異なるORMを併用して上手くいった話
by
Koichiro Matsuoka
PDF
これからSpringを使う開発者が知っておくべきこと
by
土岐 孝平
PDF
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
by
NTT DATA OSS Professional Services
PDF
リクルートのWebサービスを支える共通インフラ「RAFTEL」
by
Recruit Technologies
PDF
Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)
by
NTT DATA Technology & Innovation
PDF
データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)
by
Takeshi Mikami
PDF
イミュータブルデータモデル(入門編)
by
Yoshitaka Kawashima
シリコンバレーの「何が」凄いのか
by
Atsushi Nakada
イミュータブルデータモデルの極意
by
Yoshitaka Kawashima
Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)
by
Amazon Web Services Japan
え!?データがオンプレにあるけどPower BI で BI したいの?
by
Yugo Shimizu
入社1年目のプログラミング初心者がSpringを学ぶための手引き
by
土岐 孝平
kubernetes初心者がKnative Lambda Runtime触ってみた(Kubernetes Novice Tokyo #13 発表資料)
by
NTT DATA Technology & Innovation
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
by
NTT DATA Technology & Innovation
実践!OpenTelemetry と OSS を使った Observability 基盤の構築(CloudNative Days Tokyo 2022 発...
by
NTT DATA Technology & Innovation
Prometheus入門から運用まで徹底解説
by
貴仁 大和屋
データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)
by
株式会社MonotaRO Tech Team
がっつりMongoDB事例紹介
by
Tetsutaro Watanabe
今こそ知りたいSpring Batch(Spring Fest 2020講演資料)
by
NTT DATA Technology & Innovation
SQLアンチパターン 幻の第26章「とりあえず削除フラグ」
by
Takuto Wada
DDD x CQRS 更新系と参照系で異なるORMを併用して上手くいった話
by
Koichiro Matsuoka
これからSpringを使う開発者が知っておくべきこと
by
土岐 孝平
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
by
NTT DATA OSS Professional Services
リクルートのWebサービスを支える共通インフラ「RAFTEL」
by
Recruit Technologies
Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)
by
NTT DATA Technology & Innovation
データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)
by
Takeshi Mikami
イミュータブルデータモデル(入門編)
by
Yoshitaka Kawashima
Similar to データ分析基盤を支えるエンジニアリング
PPTX
オンプレ、クラウドを組み合わせて作るビックデータ基盤 データ基盤の選び方
by
Yu Yamada
KEY
Strata conference 2012
by
Junya Yamaguchi
PDF
デジタル化への第一歩 「エンタープライズデータレイク構築事例のご紹介」
by
BeeX.inc
PPTX
リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方
by
Yu Yamada
PDF
リクルートライフスタイル流!分析基盤との賢い付き合い方
by
Recruit Lifestyle Co., Ltd.
PDF
S01 t3 data_engineer
by
Takeshi Akutsu
PDF
オープンセミナー岡山 これから始めるデータ活用
by
syou6162
PDF
[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop
by
Insight Technology, Inc.
ODP
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
by
Kensuke SAEKI
PDF
ビッグデータエコシステムとデータサイエンスのススメ
by
Yuki Asano
PDF
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
by
Techon Organization
PDF
データ分析基盤について
by
Yuta Inamura
PDF
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
by
オラクルエンジニア通信
PDF
パネルディスカッション資料(公開版)
by
odakeiji
PPTX
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
by
Tetsutaro Watanabe
PPTX
ビッグデータ処理データベースの全体像と使い分け 2018年version
by
Tetsutaro Watanabe
PDF
リレーショナルデータベースとの上手な付き合い方 long version
by
Mikiya Okuno
PDF
(道具としての)データサイエンティストのつかい方
by
Shohei Hido
PDF
tut_pfi_2012
by
Preferred Networks
PDF
C14_ひとつのdbでは夢を現実に変えられない!Human Dreams.Make IT Real by 石川太一
by
Insight Technology, Inc.
オンプレ、クラウドを組み合わせて作るビックデータ基盤 データ基盤の選び方
by
Yu Yamada
Strata conference 2012
by
Junya Yamaguchi
デジタル化への第一歩 「エンタープライズデータレイク構築事例のご紹介」
by
BeeX.inc
リクルートライフスタイルが考える、万人に使ってもらえる分析基盤の作り方
by
Yu Yamada
リクルートライフスタイル流!分析基盤との賢い付き合い方
by
Recruit Lifestyle Co., Ltd.
S01 t3 data_engineer
by
Takeshi Akutsu
オープンセミナー岡山 これから始めるデータ活用
by
syou6162
[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop
by
Insight Technology, Inc.
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
by
Kensuke SAEKI
ビッグデータエコシステムとデータサイエンスのススメ
by
Yuki Asano
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
by
Techon Organization
データ分析基盤について
by
Yuta Inamura
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
by
オラクルエンジニア通信
パネルディスカッション資料(公開版)
by
odakeiji
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
by
Tetsutaro Watanabe
ビッグデータ処理データベースの全体像と使い分け 2018年version
by
Tetsutaro Watanabe
リレーショナルデータベースとの上手な付き合い方 long version
by
Mikiya Okuno
(道具としての)データサイエンティストのつかい方
by
Shohei Hido
tut_pfi_2012
by
Preferred Networks
C14_ひとつのdbでは夢を現実に変えられない!Human Dreams.Make IT Real by 石川太一
by
Insight Technology, Inc.
More from Recruit Lifestyle Co., Ltd.
PDF
業務と消費者の体験を同時にデザインするリクルートの価値検証のリアル ー 「Airレジ ハンディ」セルフオーダーのブレない「価値」の確かめ方 ー
by
Recruit Lifestyle Co., Ltd.
PPTX
分散トレーシングAWS:X-Rayとの上手い付き合い方
by
Recruit Lifestyle Co., Ltd.
PDF
OOUIを実践してわかった、9つの大切なこと
by
Recruit Lifestyle Co., Ltd.
PDF
Flutter移行の苦労と、乗り越えた先に得られたもの
by
Recruit Lifestyle Co., Ltd.
PDF
CTIサービスを支える裏側 〜物理デバイスとの戦い〜 | iOSDC Japan 2020
by
Recruit Lifestyle Co., Ltd.
PDF
「進化し続けるインフラ」のためのマルチアカウント管理
by
Recruit Lifestyle Co., Ltd.
PDF
Air事業のデザイン組織とデザイナー
by
Recruit Lifestyle Co., Ltd.
PDF
リクルートライフスタイル AirシリーズでのUXリサーチ
by
Recruit Lifestyle Co., Ltd.
PDF
ホットペッパービューティーにおけるモバイルアプリ向けAPIのBFF/Backend分割
by
Recruit Lifestyle Co., Ltd.
PPTX
データサイエンティストが力を発揮できるアジャイルデータ活用基盤
by
Recruit Lifestyle Co., Ltd.
PDF
Real-time personalized recommendation using embedding
by
Recruit Lifestyle Co., Ltd.
PDF
データから価値を生み続けるには
by
Recruit Lifestyle Co., Ltd.
PDF
データプロダクト開発を成功に導くには
by
Recruit Lifestyle Co., Ltd.
PDF
Jupyter だけで機械学習を実サービス展開できる基盤
by
Recruit Lifestyle Co., Ltd.
PDF
SQLを書くだけでAPIが作れる基盤
by
Recruit Lifestyle Co., Ltd.
PDF
BtoBサービスならではの顧客目線の取り入れ方
by
Recruit Lifestyle Co., Ltd.
PDF
The Design for Serverless ETL Pipeline データ分析基盤のレガシーなデータロードをサーバレスでフルリプレースするまで道のり
by
Recruit Lifestyle Co., Ltd.
PDF
リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法
by
Recruit Lifestyle Co., Ltd.
PDF
ビックデータ分析基盤の成⻑の軌跡
by
Recruit Lifestyle Co., Ltd.
PDF
Refactoring point of Kotlin application
by
Recruit Lifestyle Co., Ltd.
業務と消費者の体験を同時にデザインするリクルートの価値検証のリアル ー 「Airレジ ハンディ」セルフオーダーのブレない「価値」の確かめ方 ー
by
Recruit Lifestyle Co., Ltd.
分散トレーシングAWS:X-Rayとの上手い付き合い方
by
Recruit Lifestyle Co., Ltd.
OOUIを実践してわかった、9つの大切なこと
by
Recruit Lifestyle Co., Ltd.
Flutter移行の苦労と、乗り越えた先に得られたもの
by
Recruit Lifestyle Co., Ltd.
CTIサービスを支える裏側 〜物理デバイスとの戦い〜 | iOSDC Japan 2020
by
Recruit Lifestyle Co., Ltd.
「進化し続けるインフラ」のためのマルチアカウント管理
by
Recruit Lifestyle Co., Ltd.
Air事業のデザイン組織とデザイナー
by
Recruit Lifestyle Co., Ltd.
リクルートライフスタイル AirシリーズでのUXリサーチ
by
Recruit Lifestyle Co., Ltd.
ホットペッパービューティーにおけるモバイルアプリ向けAPIのBFF/Backend分割
by
Recruit Lifestyle Co., Ltd.
データサイエンティストが力を発揮できるアジャイルデータ活用基盤
by
Recruit Lifestyle Co., Ltd.
Real-time personalized recommendation using embedding
by
Recruit Lifestyle Co., Ltd.
データから価値を生み続けるには
by
Recruit Lifestyle Co., Ltd.
データプロダクト開発を成功に導くには
by
Recruit Lifestyle Co., Ltd.
Jupyter だけで機械学習を実サービス展開できる基盤
by
Recruit Lifestyle Co., Ltd.
SQLを書くだけでAPIが作れる基盤
by
Recruit Lifestyle Co., Ltd.
BtoBサービスならではの顧客目線の取り入れ方
by
Recruit Lifestyle Co., Ltd.
The Design for Serverless ETL Pipeline データ分析基盤のレガシーなデータロードをサーバレスでフルリプレースするまで道のり
by
Recruit Lifestyle Co., Ltd.
リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法
by
Recruit Lifestyle Co., Ltd.
ビックデータ分析基盤の成⻑の軌跡
by
Recruit Lifestyle Co., Ltd.
Refactoring point of Kotlin application
by
Recruit Lifestyle Co., Ltd.
データ分析基盤を支えるエンジニアリング
1.
データ分析基盤を支えるエンジニアリング 白鳥 昇治 テクノロジープラットフォームユニット データマネジメントグループ データ基盤チーム 2017/12/12 0
2.
今日お話すること • 自己紹介 • リクルートライフスタイルのデータ分析基盤の紹介 •
データ分析基盤に必要なエンジニアリング • さいごに 1
3.
自己紹介 • 白鳥 昇治(しろとり
しょうじ) • 略歴 • インフラエンジニア@SIer 2013/4〜 • 社内プライベートクラウドの構築・運用 • ソフトウェア開発ツールの社内ホスティングサービス開発・運用 • データエンジニア@リクルートライフスタイル 2017/7〜 • データ基盤チーム • 美容データプロデュースチーム(兼務) • 趣味 • バイク / 登山 / 仮想通貨トレード / Splatoon 2
4.
Engineering for data Business with data 技術でビジネスを ドライブする Stable
Infrastructure Continual Innovation+ リクルートライフスタイルにおけるエンジニアの役割
5.
今日お話すること • 自己紹介 • リクルートライフスタイルのデータ分析基盤の紹介 •
データ分析基盤に必要なエンジニアリング • さいごに 4
6.
リクルートライフスタイルのプロダクト 5
7.
どういうデータが集まるの? • 事業DBデータ • じゃらん、ホットペッパーグルメなどの各事業DBのテーブルそのもの や、そのスナップショットデータ •
マスターデータ • 地理情報などの外部データから取得できるマスターデータ • 管理者が手動で管理しているのでmaster_handスキーマと呼ばれる • データマート • 事業データ、マスターデータを駆使して分析・モニタリングしやすい ように加工したもの。データプランナーが事業と一緒に考えて作成。 • 誰でも音速でBIできるのでbi_smh(BIシューマッハ)スキーマと呼ば れる • サイトアクセスログ • Adobe Analyticsによる各事業のアクセスログ 6
8.
どう使う分析基盤なの? • アドホック分析 • データが必要になったときに。 •
例:昨日のこのエリアの宿のじゃらん予約数を知りたい • KPI・KGIモニタリング • 主にTableauでモニタリング、出力ファイル提供もする • 例:アクティブユーザー数の推移を見たい • 施策のためのデータ抽出 • 売上に直結するような施策のためのデータ抽出をバッチ実行 • データサイエンティストが考えたモデルを動かして使ったりする • 例:キャンペーンのポイント付与対象者リストが欲しい 7 プロダクトごとに 分析フローは様々
9.
データウェアハウス データ分析基盤 データ分析基盤 超概要 8 データ データ レイク データ データ 格納 データ 格納 データ マート BIツール 集計 集約 分析 ローデータを一元的に格納 データを構造的に格納 分析しやすいように データを加工する データ基盤チーム 分析ユーザー orシステム 事業
10.
データ分析基盤BLT 概要 9 S3 HPB JLN HPG TSV CSV Cloud Storage Redshift(本番) Redshift(退避) アクセスログ CSV 事業データ 外部データ Exadata Bigquery (スナップショット から再作成) ETL処理 ロード ETL処理 ロード ETL処理 マート作成 ETL処理 展開 BIツール JLN JLN
11.
実装ポイント3つ • データレイク構成 • 4つのデータウェアハウス •
ETLのための独自フレームワーク 10
12.
データレイク構成 11 HPB JLN HPG TSV CSV Cloud Storage Redshift(本番) Redshift(退避) アクセスログ CSV 事業データ 外部データ Exadata Bigquery (スナップショット から再作成) ETL処理 ロード ETL処理 ロード ETL処理 マート作成 ETL処理 展開 BIツール JLN JLN S3
13.
データレイク構成 • ローデータはすべてS3に保管(=データレイク構成) • データレイク構成にしておくことによって、新しいエンジンや新 しいニーズが出てきた際もある程度柔軟に対応出来る 12 S3 Load OK!
14.
4つのデータウェアハウス 13 HPB JLN HPG TSV CSV Cloud Storageアクセスログ CSV 事業データ 外部データ (スナップショット から再作成) ETL処理 ロード ETL処理 ロード ETL処理 マート作成 ETL処理 展開 BIツール S3 Redshift(本番) Redshift(退避) Exadata Bigquery JLN JLN
15.
4つのデータウェアハウス • Exadata • 施策バッチの専用実行環境 •
オンプレ • 売上に直結するため、通常の分析環境とリソースを分離して安 全安心を確保 • 利用についてはマネージャー承認制 14
16.
4つのデータウェアハウス • Redshitf(本番) • メインの分析環境 •
データロードとマート作成が常に走っており激重 • 重要指標のモニタリングによく使われる • データ鮮度:日次 15
17.
4つのデータウェアハウス • Redshift(退避) • アドホック分析環境その2 •
本番のRedshiftが遅すぎたため作った環境 • 週次で本番Redshiftのスナップショットから再作成される • 最新のデータをテーブル単位でS3からロードすることもできる • データ鮮度:週次 16
18.
4つのデータウェアハウス • BigQuery • アドホック分析環境その2 •
アクセスログが毎時で連携されている • 最近Redshiftのデータも連携されるようになったのでRedshift 退避環境の退役も近い • 安いし使いやすいし最高でしかない • データ鮮度:毎時or日次 17
19.
(スナップショット から再作成) BIツールRedshift(本番) Redshift(退避) Exadata Bigquery JLN JLN ETL(Extract Transform Load)処理 18 HPB JLN HPG TSV CSV Cloud
Storageアクセスログ CSV 事業データ 外部データ S3 ETL処理 マート作成 ETL処理 ロード ETL処理 ロード ETL処理 展開
20.
ETL処理のためのフレームワーク① • 通称、h2framework • 独自で実装した
ETLのフレームワークを用意し、SQLとYAMLを作るだけ でデータの移動を出来るようにしている。Python製。スケジューラーは JP1。 19
21.
ETL処理のためのフレームワーク② • 通称、bq-loader • S3にデータが配置されると、自動的にBigQueryにロードされる。ジョブ の中身はPython製。イベントドリブンでイケてる。 20
22.
今日お話すること • 自己紹介 • リクルートライフスタイルのデータ分析基盤の紹介 •
データ分析基盤に必要なエンジニアリング • さいごに 21
23.
データ分析基盤に必要なエンジニアリング このデータ分析基盤で達成したいこと とにかくどんどん分析してもらって 売上を上げてもらう! そのために… 22
24.
23 #1 ユーザビリティを上げる
25.
ユーザビリティを上げる • 使ってもらわないことには始まらない • アクティブユーザー数は150〜200、ユニークユーザーは1000以上 •
ユーザーのバックグラウンドも様々 • ディレクター、マーケター、セールス、エンジニア、データサイエン ティスト、etc... 24
26.
ユーザビリティを上げる • データをいい感じにする • データソースを増やす •
たとえば業務で使っているクラウドサービスのデータ • データ鮮度を上げる • Weekly→Daily→Hourly→リアルタイム • ここはまだ要望に答えきれていない… 25
27.
ユーザビリティを上げる • ユーティリティツールを公開する • チャットでつぶやくとで最新データをロードするインターフェース •
データの更新時間がわかるダッシュボード • Slackの質問チャンネル開設 • メタ情報の公開 26
28.
27 • 事業DBやDWH、Adobe Analyticsのメタデータを一元的に管理 •
カラムに対してのコメント機能もあるため、単純なDDLよりもわかりやすい情報が載っている
29.
#2 パフォーマンスを上げる 28
30.
パフォーマンスを上げる • クエリが数分間返ってこない分析基盤なんて使っても らえない • ユーザー「ボルト?遅っ!!」 29
31.
パフォーマンスを上げる • ビッグデータ、データ分析関連のソフトウェアやサービスはも のすごい勢いでローンチ/アップデートされている • Redshift
Spectrum, AWS Glue, Dataflow, Data studio... • 良さそうなものは検証して基盤を進化させ続け、その時想像で きる最適を目指す 30
32.
31 Amazon EMR Amazon Athena AWS
Glue 役目を終えた OR 我々の基盤に今はマッチしなかったサービス・ツール達
33.
パフォーマンスを上げる • マネージドサービスとは仲良く、フィードバックする • もちろん最初はSQLチューニングやベストプラクティス適用な ど、基本からやりましょう 32
34.
33 #3 運用コストを下げる
35.
運用コストを下げる • ユーザビリティやパフォーマンスのための開発ができ るようにする 34
36.
運用コストを下げる • なるべく運用は自動化しておく • ETLのリトライは単純リランで済むように、冪等な処理に •
故障チケットは自動で起票、チケット起票おじさんがいなくて済むように • Infrastructure as a code/自動テスト/自動デプロイ • 定常作業はすべて自動化するつもりで • まだまだ道半ば>< • 魔改造しない、マネージドサービスに乗れるところは乗る • まだまだオンプレのバッチサーバがあったりします • とはいえミドルウェアを自分でいじれないのはちょっとさみしい>< 35
37.
#4 モニタリングする 36
38.
モニタリングする • データ分析基盤自体もデータ分析が必要 • モニタリングをして改善しないとダメです •
まだきちんとできておりません>< 37
39.
38 クエリ状況 障害状況 DWH負荷状況 UU推移(日足) クエリ数推移(日足) クエリ実行時間推移(日足) クエリ内容 UU推移(月足) クエリ数推移(月足) クエリ実行時間推移(月足) サマリ
40.
#5 自分で分析する 39
41.
自分自身でも分析する • せっかく目の前に面白いデータがあるのに、遊ばない 分析しない手はない • 使う側になってみないとわからないこと、たくさんあ ると思います •
自分がマーケター、ディレクターの役割で事業課題を発見・解決する データを作ってみよう • 誰が、何のために、どんなデータを分析してるのか認 識しないと、最適なデータ分析基盤は作れない • =データプランナーの視点も必要 40
42.
データ分析基盤に必要なエンジニアリング このデータ分析基盤で達成したいこと とにかくどんどん分析してもらって 売上を上げてもらう! そのために… 1. ユーザビリティを上げる 2. パフォーマンスを上げる 3.
運用コストを下げる 4. モニタリングする 5. 自分で分析する 41
43.
今日お話すること • 自己紹介 • リクルートライフスタイルのデータ分析基盤の紹介 •
データ分析基盤に必要なエンジニアリング • さいごに 42
44.
さいごに • 進化を続けることができる基盤は作っていて、エンジニアとして とても楽しい • 新しいマネージドサービスや技術はキャッチアップ必須! •
リクルートライフスタイルのデータ分析基盤はまだ発展途上 • お話したとおり改善ポイントはいくらでもある • 実はアプリやサーバーログのリアルタイム収集・分析基盤は別にあったり… • リクルートライフスタイル、ひいてはリクルート全体の分析基盤 を一緒に作ってくれる方をお待ちしています! 43
45.
44
46.
45
Editor's Notes
#5
リクルートライフスタイルにおけるエンジニアの役割 弊社の特徴として、エンジニアがビジネスのとても近くにいるというのがあります。 図のようにエンジニアの役割は技術によってビジネスをドライブさせることになります。 エンジニアからビジネス側へ提案することが多くある。 あとは、毎年エンジニアがビジネスプランを発表するコンテストもありますし、技術とビジネス両方学べる良い環境だと思います。 リクルートライフスタイルとエンジニアが結びつかない人も多数いるとは思いますが、技術でビジネスをドライブしてる実績が認められ最近はエンジニアを増やすことに注力しています。
Download