Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Tetsutaro Watanabe
PPTX, PDF
1,723 views
巨大なサービスと膨大なデータを支えるプラットフォーム
Cloud Days 2018<関西>の発表資料になります
Internet
◦
Read more
1
Save
Share
Embed
Embed presentation
Download
Downloaded 11 times
1
/ 29
2
/ 29
3
/ 29
4
/ 29
5
/ 29
6
/ 29
7
/ 29
8
/ 29
9
/ 29
10
/ 29
11
/ 29
12
/ 29
13
/ 29
14
/ 29
15
/ 29
16
/ 29
17
/ 29
18
/ 29
19
/ 29
20
/ 29
21
/ 29
22
/ 29
23
/ 29
24
/ 29
25
/ 29
26
/ 29
27
/ 29
28
/ 29
29
/ 29
More Related Content
PPTX
ドライブレコーダの画像認識による道路情報の自動差分抽出
by
Tetsutaro Watanabe
PPTX
Google Cloud Next '18 Recap/報告会 機械学習関連
by
Tetsutaro Watanabe
PPTX
MLOpsはバズワード
by
Tetsutaro Watanabe
PPTX
データ収集の基本と「JapanTaxi」アプリにおける実践例
by
Tetsutaro Watanabe
PPTX
ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ
by
Tetsutaro Watanabe
PDF
Gtfsデータリポジトリ紹介 iodd発表資料
by
Shimpei Matsuura
PPTX
ビックデータ処理技術の全体像とリクルートでの使い分け
by
Tetsutaro Watanabe
PPTX
タクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみた
by
Tetsutaro Watanabe
ドライブレコーダの画像認識による道路情報の自動差分抽出
by
Tetsutaro Watanabe
Google Cloud Next '18 Recap/報告会 機械学習関連
by
Tetsutaro Watanabe
MLOpsはバズワード
by
Tetsutaro Watanabe
データ収集の基本と「JapanTaxi」アプリにおける実践例
by
Tetsutaro Watanabe
ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ
by
Tetsutaro Watanabe
Gtfsデータリポジトリ紹介 iodd発表資料
by
Shimpei Matsuura
ビックデータ処理技術の全体像とリクルートでの使い分け
by
Tetsutaro Watanabe
タクシードライブレコーダーの動画処理MLパイプラインにkubernetesを使ってみた
by
Tetsutaro Watanabe
What's hot
PPTX
日経コンピュータ主催:さわってわかる機械学習 Azure Machine Learning 実践セミナー
by
Hiroshi Senga
PPTX
データサイエンティスト向け性能問題対応の基礎
by
Tetsutaro Watanabe
PPTX
リクルートを支える横断データ基盤と機械学習の適用事例
by
Tetsutaro Watanabe
PDF
DX認定制度システム開発裏話:技術編
by
Arichika TANIGUCHI
PPTX
ビッグデータ処理データベースの全体像と使い分け 2018年version
by
Tetsutaro Watanabe
PPTX
先駆者に学ぶ MLOpsの実際
by
Tetsutaro Watanabe
PPTX
ドライブレコーダの動画を使った道路情報の自動差分抽出
by
Tetsutaro Watanabe
PPTX
IoTデバイスデータ収集の難しい点
by
Tetsutaro Watanabe
PDF
ビッグデータ処理データベースの全体像と使い分け
by
Recruit Technologies
PPTX
JapanTaxiにおけるML Ops 〜機械学習の開発運用プロセス〜
by
Tetsutaro Watanabe
PDF
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
by
Recruit Technologies
PPTX
データサイエンティストが力を発揮できるアジャイルデータ活用基盤
by
Recruit Lifestyle Co., Ltd.
PDF
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
by
Takashi Okawa
PDF
Azure Purview Linage for Dataflow/Spark
by
Ryoma Nagata
PPTX
20180627 databricks ver1.1
by
Hirono Jumpei
PPTX
JapanTaxiにおけるSagemaker+αによる機械学習アプリケーションの本番運用
by
Tetsutaro Watanabe
PDF
AI研究を加速するオープンデータ
by
Deep Learning Lab(ディープラーニング・ラボ)
PDF
リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法
by
Recruit Lifestyle Co., Ltd.
PPTX
2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートake
by
Daiyu Hatakeyama
PPTX
AWS朝会2022/1 セッション① 数年間、レイクハウスを設計運用してみた
by
tatsuya 264
日経コンピュータ主催:さわってわかる機械学習 Azure Machine Learning 実践セミナー
by
Hiroshi Senga
データサイエンティスト向け性能問題対応の基礎
by
Tetsutaro Watanabe
リクルートを支える横断データ基盤と機械学習の適用事例
by
Tetsutaro Watanabe
DX認定制度システム開発裏話:技術編
by
Arichika TANIGUCHI
ビッグデータ処理データベースの全体像と使い分け 2018年version
by
Tetsutaro Watanabe
先駆者に学ぶ MLOpsの実際
by
Tetsutaro Watanabe
ドライブレコーダの動画を使った道路情報の自動差分抽出
by
Tetsutaro Watanabe
IoTデバイスデータ収集の難しい点
by
Tetsutaro Watanabe
ビッグデータ処理データベースの全体像と使い分け
by
Recruit Technologies
JapanTaxiにおけるML Ops 〜機械学習の開発運用プロセス〜
by
Tetsutaro Watanabe
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
by
Recruit Technologies
データサイエンティストが力を発揮できるアジャイルデータ活用基盤
by
Recruit Lifestyle Co., Ltd.
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
by
Takashi Okawa
Azure Purview Linage for Dataflow/Spark
by
Ryoma Nagata
20180627 databricks ver1.1
by
Hirono Jumpei
JapanTaxiにおけるSagemaker+αによる機械学習アプリケーションの本番運用
by
Tetsutaro Watanabe
AI研究を加速するオープンデータ
by
Deep Learning Lab(ディープラーニング・ラボ)
リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法
by
Recruit Lifestyle Co., Ltd.
2021/6/3 Deep Learning Lab - Azure Synapse Analytics Ignite & Build アップデートake
by
Daiyu Hatakeyama
AWS朝会2022/1 セッション① 数年間、レイクハウスを設計運用してみた
by
tatsuya 264
Similar to 巨大なサービスと膨大なデータを支えるプラットフォーム
PDF
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
by
Recruit Technologies
PDF
変わる!? リクルートグループのデータ解析基盤
by
Recruit Technologies
PPTX
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
by
Tetsutaro Watanabe
PDF
Spring “BigData”
by
Recruit Technologies
PDF
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
by
Recruit Technologies
PDF
Firebase & BigQuery で Android アプリの成⻑を支える
by
Kenichi Tatsuhama
PDF
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
by
Google Cloud Platform - Japan
PDF
Google Cloud ベストプラクティス:Google BigQuery 編 - 01 : BigQuery とは?
by
Google Cloud Platform - Japan
PDF
BigQuery + Fluentd
by
徹 上野山
PDF
BigQueryを始めてみよう - Google Analytics データを活用する
by
Google Cloud Platform - Japan
PDF
Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ~事例とデモから見えてくる、これからのデー...
by
オラクルエンジニア通信
PPTX
非エンジニアよ エクセル辞めてBigQueryを使いなさい
by
Hironari Ono
PDF
Google Cloud ベストプラクティス:Google BigQuery 編 - 02 : データ処理 / クエリ / データ抽出
by
Google Cloud Platform - Japan
PPTX
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
by
Atsushi Kurumada
PDF
ビッグデータとデータマート
by
株式会社オプト 仙台ラボラトリ
KEY
Google bigqueryとは
by
Junya Yamaguchi
PDF
データサイエンティストとエンジニア 両者が幸せになれる機械学習基盤を求めて
by
Recruit Lifestyle Co., Ltd.
PDF
Struggle against cross-domain data complexity in Recruit group
by
Recruit Technologies
PDF
HadoopをBQにマイグレしようとしてる話
by
Recruit Technologies
PPTX
Struggle against crossdomain data complexity in Recruit Group
by
DataWorks Summit/Hadoop Summit
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
by
Recruit Technologies
変わる!? リクルートグループのデータ解析基盤
by
Recruit Technologies
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
by
Tetsutaro Watanabe
Spring “BigData”
by
Recruit Technologies
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
by
Recruit Technologies
Firebase & BigQuery で Android アプリの成⻑を支える
by
Kenichi Tatsuhama
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
by
Google Cloud Platform - Japan
Google Cloud ベストプラクティス:Google BigQuery 編 - 01 : BigQuery とは?
by
Google Cloud Platform - Japan
BigQuery + Fluentd
by
徹 上野山
BigQueryを始めてみよう - Google Analytics データを活用する
by
Google Cloud Platform - Japan
Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ~事例とデモから見えてくる、これからのデー...
by
オラクルエンジニア通信
非エンジニアよ エクセル辞めてBigQueryを使いなさい
by
Hironari Ono
Google Cloud ベストプラクティス:Google BigQuery 編 - 02 : データ処理 / クエリ / データ抽出
by
Google Cloud Platform - Japan
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
by
Atsushi Kurumada
ビッグデータとデータマート
by
株式会社オプト 仙台ラボラトリ
Google bigqueryとは
by
Junya Yamaguchi
データサイエンティストとエンジニア 両者が幸せになれる機械学習基盤を求めて
by
Recruit Lifestyle Co., Ltd.
Struggle against cross-domain data complexity in Recruit group
by
Recruit Technologies
HadoopをBQにマイグレしようとしてる話
by
Recruit Technologies
Struggle against crossdomain data complexity in Recruit Group
by
DataWorks Summit/Hadoop Summit
More from Tetsutaro Watanabe
PPTX
WiredTigerを詳しく説明
by
Tetsutaro Watanabe
PPTX
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
by
Tetsutaro Watanabe
PPTX
MongoDBが遅いときの切り分け方法
by
Tetsutaro Watanabe
PPTX
MongoDB3.2の紹介
by
Tetsutaro Watanabe
PPTX
MongoDB World 2014に行ってきた!
by
Tetsutaro Watanabe
PPTX
がっつりMongoDB事例紹介
by
Tetsutaro Watanabe
PPTX
初心者向けMongoDBのキホン!
by
Tetsutaro Watanabe
PPTX
MongoDBの監視
by
Tetsutaro Watanabe
WiredTigerを詳しく説明
by
Tetsutaro Watanabe
リクルートテクノロジーズ における EMR の活用とコスト圧縮方法
by
Tetsutaro Watanabe
MongoDBが遅いときの切り分け方法
by
Tetsutaro Watanabe
MongoDB3.2の紹介
by
Tetsutaro Watanabe
MongoDB World 2014に行ってきた!
by
Tetsutaro Watanabe
がっつりMongoDB事例紹介
by
Tetsutaro Watanabe
初心者向けMongoDBのキホン!
by
Tetsutaro Watanabe
MongoDBの監視
by
Tetsutaro Watanabe
巨大なサービスと膨大なデータを支えるプラットフォーム
1.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. 巨大なサービスと膨大なデータを支えるプラットフォーム ~リクルートでの Google BigQuery の活用とは?~ 2018/3/8 Cloud Days2018 <関西> KEY NOTE
2.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. 自己紹介 {"ID" :"fetaro" "名前":"渡部 徹太郎" "研究":"東京工業大学でデータベースと情報検索の研究 (@日本データベース学会)" "仕事":{前職:["証券会社のオンライントレードシステムのWeb基盤", "オープンソースなら何でも。主にMongoDB,NoSQL"], 現職:["リクルートの分析基盤,Exadata,BigQuery,EMR"] 副業:["ビッグデータコンサルタント", "非常勤講師" ]} "エディタ":"emacs派", "趣味": ["自宅サーバ","麻雀"] }
3.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. 目次 ■ データプラットフォームの紹介 ■ BigQuery の使い所
4.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. データプラットフォームの紹介
5.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. リクルートの事業領域 ライフイベント ライフスタイル 旅行 ライフスタイル 健康・美容 就職 結婚 転職 不動産 自動車 出産 教育 「ゆりかごから墓場まで」
6.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. リクルートのビジネスモデル ■ リボンモデル
7.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. リクルートのビジネスモデル クライアント カスタマ 集める 集める 動かす 動かす 結ぶ
8.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. ビッグデータの活用箇所 カスタマ クライアント ①集客のコスト削減 ・メール・広告最適化 ・ポイント付与最適化 ③クライアント業務支援 ・レポーティング ④KPI可視化 データドリブンな意思決定支援 ②マッチング率向上 ・UI/UX改善 ・レコメンデーション
9.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. リクルートホールディングス データ・AI戦略統括部 リクルート ホールディングス リクルートキャリア リクルート住まいカンパニー リクルートライフスタイル リクルートジョブズ リクルートスタッフィング リクルートマーケティングパートナーズ ・・・ リクルート テクノロジーズ リクルートアドミニストレーション リクルートコミュニケーションズ 事業会社 機能会社 データ・AI 戦略統括部
10.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. Recruit ID・リクルートポイント ■ 共通IDで行動を把握・分析。共通ポイントの付与 横断データ基盤 Recruit ID
11.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. 横断データ基盤
12.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. 横断データ基盤の構成要素 12 ポイント・メール・ 広告 マスタデータRecruit Service Web・ アプリ Exadata RDS S3 行動データ API提供 集計/予測/分類 アドホック分析/データ共有 出力蓄積 データアプリケーション Google Cloud Storage Spanner 収集 ・ ・ ・ 50サイト 加工 セグメント抽出 BigQuery BI・レポート GKE k8s
13.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. 横断データ基盤のプロファイル ■ データ ● データ量:2,000+TB ● サービス:50 ● データベース:160 ● テーブル:8000 ■ 処理 ● サーバ数:200+ ● ジョブ数:10000 ● クエリ数: 100,000,000/月 ■ 体制 ● 分析環境利用者数:400人 ● 開発者数:87人 13
14.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. 横断データ基盤の典型的な処理パターン ■ サイト横断でデータを取得、機械学習によりユーザを推定、 メール・ポイント最適化、UI/UX改善に利用する 14 Aサイト 行動 データ Exadata マスター データ S3 Web 機械学習による 属性推定 個人情報マスク 名寄せ DWH化 API化 推定結果の 格納 Exadata リスト作成 メール ポイント 最適化 UI/UX 改善 ブ ラ ウ ザ Point Aサイトに訪れたこと無いユーザでも、 Bサイトの情報から属性を推定できる Bサイト
15.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. プラットフォームだけでなくデータガバナンスを強化 ■ データガバナンス ● メタデータ管理 ・・・ できてる! ● データフロー管理 ・・・ できてきた! ● データ品質管理 ・・・ これから 15
16.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. メタデータ管理 ■ メタデータ可視化Web ● データを探す機能 • データベース一覧・テーブル一覧 • キーワード検索 • 名前が似ているテーブル ● データの意味を知る機能 • テーブル定義 • コード値 • 利用者のコメント • よく利用しているユーザ ● データの関係を知る機能 • 外部参照一覧 • JOINされることが多いテーブル ● データの変化を知る機能 • テーブル定義変更検知・通知 16 Web アプリ OLTP DB 分析 DB Web アプリ OLTP DB Web アプリ OLTP DB メタデータ可視化Web リクルートのほぼ全サイトで導入 OLTP DB, 分析DBの両方から情報を収集
17.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. データフロー管理 ■ データとジョブの関係を可視化 ● データ数:7000 ジョブ数:800 ■ 用途 ● 障害発生時の影響調査 ● 処理設計時のインプット ■ 管理方法 ● YAMLをgitで管理 17 データマー ト ETL マート化 データマ ート マート化 DWH src src ETL レポート アプリケーション ジョブコントローラ 独自Webアプリを開発
18.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. データ品質管理 ■ データ品質 ● データの鮮度 ● データの正確性(欠損、重複はないか) ● など ■ できていること ● アプリケーション個別に件数チェック、重複チェック ■ やりたいこと ● プラットフォーム全体でデータ品質管理プラットフォームを準備 ● データの重要度によってデータ品質チェックの量を変える 18
19.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. BigQuery の使い所
20.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. 分析用SQLエンジンの進化 20 RDB(OLTP) RDB(DWH) SQL on Hadoop Redshift • MPP • 専用のハードウェア • 大量のディスク • ロード・抽出・集計 に特化 • 汎用的なハードウ ェア • 無限にスケール • UPDATE / DELETEを捨てる • クエリ毎にリソー スの動的割当 Impara Athena 2004年 (Google) 2012年 (Google) BigQuery
21.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. BigQueryとは ■ BigQuery とは ● Google がHadoop(Hive)を進化させて作った分散SQLエンジン ● クエリ課金 ● 速度が別格(1TBを1秒でスキャン) ● GROUP BYやJOIN等の重い処理は、処理量に合わせて計算ノードを動的に割り 当てて実行。利用できるノードは1000台以上 21 分散ストレージ Colossus File System シャード シャード シャード シャード シャード ミキサー ミキサー ミキサー ルート ミキサー 参考)オライリー・ジャパン社「BigQuery」
22.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. BigQuery をどこで使うか カスタマ クライアント ①集客のコスト削減 ・メール・広告最適化 ・ポイント付与最適化 ③クライアント業務支援 ・レポーティング ④KPI可視化 データドリブンな意思決定支援 ②マッチング率向上 ・UI/UX改善 ・レコメンデーション
23.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. BigQueryをどこで使うか ■ データ分析は二つのパターンが有る アドホック分析 ● 企画や戦略の立案社員全員が 担当のデータを見る ● ExcelやBI的なこと ● 皆がデータを見る 23 バックエンドシステム ● バッチとして実装し、 日々価値を生み出し続ける ● 夜間バッチ ● データ加工や機械学習
24.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. BigQuery をどこで使うか カスタマ クライアント ①集客のコスト削減 ・メール・広告最適化 ・ポイント付与最適化 ③クライアント業務支援 ・レポーティング ②マッチング率向上 ・UI/UX改善 ・レコメンデーション バックエンドシステムがメイン
25.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. BigQuery をどこで使うか カスタマ クライアント ④KPI可視化 データドリブンな意思決定支援 アドホック分析がメイン ↓ BigQueryが向いている
26.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. BigQuery の使い所 Oracle Exadata Hortonworks BigQuery 出来ること SQL SQL (Hive) 機械学習 + その他 SQL クエリ速度 △ リソースは一定 △ リソースは一定 ◯ クエリ毎にリソースを確保 値段 ✕ 専用ハードウェアが必要 △ 一般的なハードウェア ◯ クエリ課金 扱えるデータ量 (予算内で) ✕ 容量あたり蓄積コスト高 △ ◯ 全量OK セキュリティ・安 定性 ◯ オンプレなので ◯ オンプレなので △ クラウドなので 高SLAのバッチ処理 機械学習モデルの 計算 全社員向け 公開データセット バックエンドシステム アドホック分析
27.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. BigQuery がアドホック分析に向いている訳 ■ 速い ● すぐに分析結果が出る ■ データ量を気にしなくて良い ● 容量は実質無限。GCS にためておくだけなら安い。 ■ 使いやすい ● ブラウザがあればOK。クライアント環境構築が不要 ■ 従量課金 ● 使いたいときだけにコストが発生する ■ データの共有が簡単 ● 1クリックでデータ共有が可能 ● 例)全社 BigQuery に全社データから推定したユーザ属性を格納し、 各社の BigQuery からJOINしてつかってもらう
28.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. GCP の活用と今後のテーマ ■ GCP 活用中 ● Google Pub/Sub を用いたユーザ行動ログに対するリアルタイム属性付与 ● Cloud Spannerを用いたメールバナー出し分けツール ● Google Cloud Datastore を用いた、全ユーザx全属性を高速に取得できるAPI開発 ■ 今後のテーマ ● BigQuery 全社公開 ● Hadoopベースの機械学習から、Dataflow + GPUベースの機械学習へ ● BigQueryにデータ品質情報が表示される画面の開発
29.
(C) Recruit Holdings
Co.,Ltd. All rights reserved. BigQueryにデータ品質情報が表示される画面(開発中)
Download