SlideShare a Scribd company logo
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
サイエンス視点からの
データアーキテクト
2019/11/27
ヤフー株式会社
堀野 将晴
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
自己紹介
2013年:ヤフー株式会社へ入社
Yahoo!ダイニングでBE開発
2014年:サイエンス部へ
Yahoo!ショッピング, GYAO!
主にデータエンジニアリング・分析業務
2018年:サイエンスチームのマネージャー
データエンジニアリング・分析・モデリング
業務で扱うデータの幅が広がる
・Yahoo!ショッピング
・ヤフオク!
・Yahoo!トラベル
・YDN
・Yahoo!不動産
・PayPayモール、PayPayフリマ…etc
2
堀野 将晴
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 3
本日は
サイエンスの立場から見た
データアーキテクトの話
※データアーキテクト=(データ整備人)とは、
「データエンジニア」と「アナリスト」「サイエンティスト」の間を埋める役割
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
• 営業改善
• マーケティング改善
4
• プロダクト改善
(機械学習を用いた)
• 全社のデータ利活用
サービス
例)Y!ショッピング
サイエンス
例)Y!ショッピング改善チーム
機械学習でレコメンド作成
データPF
• 行動ログの整備・基盤
• Hive,Presto,Spark環境
• ダッシュボード
組織 データの活用対象
• MapReduce, Hive,
Spark
• Apache Airflow, oozie
• Teradata
• BI、レポートツールと
Workfolowエンジンは
サービスによって様々
組織とデータ活用目的の違い
※主にデータで関わっている組織を抜粋
環境
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 5
扱うデータ
• 主に行動ログ,サービスのマスターログ
• HDFS上のビックデータ
基本的なチーム構成
• モデリング・サービス実装までが1チーム
• データPFや、サービス側の提供データを利用
サイエンスとデータ
モデリング・分析のための前処理・可視化
データ活用の目的
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 6
データアーキテクトに焦点を当て
失敗や学びを“前向き”に話します
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
□データ整備の必要性
□データ整備人に求められるもの
□データ整備人の仕事
1.ログ管理の難しさ
2.KPIダッシュボード
3.意図通りに使われないデータ
4.データ抽出業務
□データ整備人だからできる事
□価値を出すには
7
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
□データ整備の必要性
□データ整備人に求められるもの
□データ整備人の仕事
1.ログ管理の難しさ
2.KPIダッシュボード
3.意図通りに使われないデータ
4.データ抽出業務
□データ整備人だからできる事
□価値を出すには
8
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
• 営業改善
• マーケティング改善
9
• 全社のデータ利活用
サービス
データPF
組織 データの活用対象
データ整備は必要なのか?
サイエンスでは
・データPF
・サービス
の提供データを利用
• プロダクト改善
(機械学習を用いた)
サイエンス
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 10
データをサイエンスで使いたい
サイエンス目的ではない
データが
整っていない
• 営業改善
• マーケティング改善
• 全社のデータ利活用
サービス
データPF
組織 データの活用対象
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 11
データPFの提供データを活用
大きなデータなので
サイエンスで使うには前処理必須
• 時間もCPリソースも無駄
• フィルタ条件が違う
共通データが必要
• 全社のデータ利活用データPF
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 12
サービスの提供データを活用
サービス側の
データチームと
調整する人が必要
データの状況がわからない
• そもそも何のデータが使えるのか不明
• HDFSにないので、
欲しいデータが欲しい時に使えない
• 営業改善
• マーケティング改善
サービス
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 13
サイエンスのデータ窓口となった
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
□データ整備の必要性
□データ整備人に求められるもの
□データ整備人の仕事
1.ログ管理の難しさ
2.KPIダッシュボード
3.意図通りに使われないデータ
4.データ抽出業務
□データ整備人だからできる事
□価値を出すには
14
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 15
各サービス
• データレイク、DWH
• 分散処理、ストレージ
• データパイプライン
• フォーマット
• BI、分析基盤周り
• コミュニケーション
• サービスドメイン知識
• サイエンス内でどんな
改善が行われているか
• KPI、レポートの現状
サイエンスの整備人に求められるスキル
データエンジニアスキル その他
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 16
サイエンスの整備人に求められるスキル
ビジネス価値を考えた動き
ニーズに応じた
• 開発
• 優先順位付け
• コミュニケーション
• サービスドメイン知識
• サイエンス内でどんな
改善が行われているか
• KPI、レポートの現状
その他一番大切
多くのチームと関わる
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 17
各サービス
• データレイク、DWH
• 分散処理、ストレージ
• データパイプライン
• フォーマット
• BI、分析基盤周り
サイエンスの整備人に求められるスキル
各サービス
データ開発運用を
サービスにお願いするのはダメ
目標の違い・リソースが逼迫
サービスで本来やるべき事が別にある
データ環境の違い
サイエンスはHDFSにデータが欲しい
サービス側にあまり知見がない
サービス側のデータエンジニアとの
共同開発が鍵
データエンジニアスキル
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
□データ整備の必要性
□データ整備人に求められるもの
□データ整備人の仕事
1.ログ管理の難しさ
2.KPIダッシュボード
3.意図通りに使われないデータ
4.データ抽出業務
□データ整備人だからできる事
□価値を出すには
18
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 19
各サービス
ログを設計/実装する人は実際にデータを使わない
• 一箇所の集計だけを想定した設計
• 他のログに影響を与える
• 使って初めてバグに気付く
• キャンペーン計測のためのログ実装
▶︎キャンペーン後にデータを見たらログがなかった
ログ設計のルールは絶対必要
設計・実装側と整備人が認識合わせ
ログ管理の難しさ
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
□データ整備の必要性
□データ整備人に求められるもの
□データ整備人の仕事
1.ログ管理の難しさ
2.KPIダッシュボード
3.意図通りに使われないデータ
4.データ抽出業務
□データ整備人だからできる事
□価値を出すには
20
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 21
サイエンス改善のKPIを見れるようにした
ほとんど利用していない状態に
使われないKPIダッシュボード
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 22
利用されない理由
不要になった
データを見る習慣がない
どうしたか
運用コストの観点から
思い切って潰した
(その時は自前のBIツールを作っていたので・・・)
KPIは各々のPJで責任を持って追ってもらうことに
サービス側とサイエンス側で共通の定義のKPI
KPIダッシュボードの廃止
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 23
若手が持ち回りで、KPIをまとめて共有
数値を見る文化
データを見る習慣は大切
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
□データ整備の必要性
□データ整備人に求められるもの
□データ整備人の仕事
1.ログ管理の難しさ
2.KPIダッシュボード
3.意図通りに使われないデータ
4.データ抽出業務
□データ整備人だからできる事
□価値を出すには
24
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 25
各サービス
意図通りに使われないデータ
Joinを不要にする
中間テーブル
中間テーブル
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 26
各サービス
大元のテーブルと再Join
意図通りに使われないデータ
Joinを不要にする
中間テーブル
ユーザーの使い方
中間テーブル
各サービス
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 27
大元のテーブルと再Join
意図通りに使われないデータ
ユーザーの使い方
各サービス
想定外の使われ方
ユーザーの利用方法は
定期的にヒアリング
アフタフォーローが大事
設計して終わりではなく
改善を回せるようにする
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 28
意図通りに使われないデータ
ドキュメントを残すだけでは不十分
利用者が気軽に相談できる仕組み
•データの解釈を間違えて利用
•長期間改善が進まない
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
□データ整備の必要性
□データ整備人に求められるもの
□データ整備人の仕事
1.ログ管理の難しさ
2.KPIダッシュボード
3.意図通りに使われないデータ
4.データ抽出業務
□データ整備人だからできる事
□まとめ
29
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 30
サービス側の見たいデータを出すお仕事
最初は分析タスクとしてチームでやっていた
サイエンスの新卒で持ち回りで担当
新卒はデータ集計を覚えられる
分析という名のデータ抽出係
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 31
サービス側は見たいデータが集計でき
新卒はデータ集計を覚えられる
疑問を感じていた
本質的には
• BIで簡単に見れるようにするべき
• サービス側でもデータ抽出できる人を増やすべき
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 32
各サービス
Hive集計塾“堀野塾”をサービス向けに開催
• 社内のデータ環境の説明
• 基礎的なHiveQL
• 課題を持ってきてもらい、一緒に分析から考える
社内評価について
• 持ち込み課題を社内のポスターセッションに提出
• サービス内の改善にも繋がった
• 期末にアンケートを取り、フィードバックを
もらった
集計塾の開催
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 33
データ整備だけではなく
利活用促進の仕組みも考える
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
□データ整備の必要性
□データ整備人に求められるもの
□データ整備人の仕事
1.ログ管理の難しさ
2.KPIダッシュボード
3.意図通りに使われないデータ
4.データ抽出業務
□データ整備人だからできる事
□価値を出すには
34
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 35
各サービス
みんな積極的にやらないからこそ
やる価値がある
皆から頼られ
データに困ったら必ず相談される存在に
重宝される人材
必要性が認められてサイエンスに
データアーキテクトとエンジニアリングを中心としたチームを結成
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 36
メディア面のコンテンツ最適化
ヤフオク!
このユーザーには
どのサービスをオススメするべきか
メディアにアクセス
サービス横断の
• レコメンド開発
Yahoo!ショッピング
Yahoo!トラベル
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 37
サービス横断の
• レコメンド開発
• KPI設定
メディア面のコンテンツ最適化
ヤフオク!
このユーザーには
どのサービスをオススメするべきか
メディアにアクセス
予算や意思決定に利用
各サービスがメディアに
掲載された時の価値を
同等に比較するため、
バラバラのKPIを統一
Yahoo!ショッピング
Yahoo!トラベル
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 38
サービス横断の
• レコメンド開発
• KPI設定
• データ整備、設計開発
• BIツール整備
メディア面のコンテンツ最適化
ヤフオク!
Yahoo!ショッピング
Yahoo!トラベル
このユーザーには
どのサービスをオススメするべきか
メディアにアクセス
データアーキテクトの
仕事が重要
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 39
サービス横断の
• レコメンド開発
• KPI設定
• データ整備、設計開発
• BIツール整備
メディア面のコンテンツ最適化
ヤフオク!
このユーザーには
どのサービスをオススメするべきか
メディアにアクセス
データ整備人が中心にいるから成り立つ仕事
Yahoo!ショッピング
Yahoo!トラベル
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved.
□データ整備の必要性
□データ整備人に求められるもの
□データ整備人の仕事
1.ログ管理の難しさ
2.KPIダッシュボード
3.意図通りに使われないデータ
4.データ抽出業務
□データ整備人だからできる事
□価値を出すには
40
Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 41
データアーキテクトで価値を出すには
整備されたデータを用いて
意思決定や改善に繋がるをゴールとする
コミュニケーション データエンジニアリング
開発運用まで携わる
設計して終わりではなく、
作って使ってもらい
改善を回すのが大事
能動的に動く
多くのチームと関わる
現場の課題を汲み取る
価値の高い課題を探す
データ活用の仕組み作り

More Related Content

What's hot

経験ベイズ木(IBIS 2017)
経験ベイズ木(IBIS 2017)経験ベイズ木(IBIS 2017)
経験ベイズ木(IBIS 2017)
Masashi Sekino
 
次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode
次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode
次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode
Hirotaka Matsumoto
 
実務と論文で学ぶジョブレコメンデーション最前線2022
実務と論文で学ぶジョブレコメンデーション最前線2022実務と論文で学ぶジョブレコメンデーション最前線2022
実務と論文で学ぶジョブレコメンデーション最前線2022
Teruyuki Sakaue
 
ゼロから始める転移学習
ゼロから始める転移学習ゼロから始める転移学習
ゼロから始める転移学習
Yahoo!デベロッパーネットワーク
 
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
NTT DATA Technology & Innovation
 
リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例
Tetsutaro Watanabe
 
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence
Deep Learning JP
 
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
cvpaper. challenge
 
エンタープライズRuby on Rails ~エンプラでぶち当たった2つの壁と突破法~
エンタープライズRuby on Rails ~エンプラでぶち当たった2つの壁と突破法~エンタープライズRuby on Rails ~エンプラでぶち当たった2つの壁と突破法~
エンタープライズRuby on Rails ~エンプラでぶち当たった2つの壁と突破法~
hiroki tanaka
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
 
ユーザとベンダ双方にとって幸せなAI開発のための3つのポイント
ユーザとベンダ双方にとって幸せなAI開発のための3つのポイントユーザとベンダ双方にとって幸せなAI開発のための3つのポイント
ユーザとベンダ双方にとって幸せなAI開発のための3つのポイント
Deep Learning Lab(ディープラーニング・ラボ)
 
DSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめDSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめ
sleepy_yoshi
 
絶対に描いてはいけないグラフ入りスライド24枚
絶対に描いてはいけないグラフ入りスライド24枚絶対に描いてはいけないグラフ入りスライド24枚
絶対に描いてはいけないグラフ入りスライド24枚
itoyan110
 
ゲームのモデリング
ゲームのモデリングゲームのモデリング
ゲームのモデリング
Keiko Mizuno
 
DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
 
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
Yahoo!デベロッパーネットワーク
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
Shota Imai
 
AI開発を円滑に進めるための契約・法務・知財
AI開発を円滑に進めるための契約・法務・知財AI開発を円滑に進めるための契約・法務・知財
AI開発を円滑に進めるための契約・法務・知財
Hirono Jumpei
 
BERT分類ワークショップ.pptx
BERT分類ワークショップ.pptxBERT分類ワークショップ.pptx
BERT分類ワークショップ.pptx
Kouta Nakayama
 

What's hot (20)

経験ベイズ木(IBIS 2017)
経験ベイズ木(IBIS 2017)経験ベイズ木(IBIS 2017)
経験ベイズ木(IBIS 2017)
 
次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode
次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode
次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode
 
実務と論文で学ぶジョブレコメンデーション最前線2022
実務と論文で学ぶジョブレコメンデーション最前線2022実務と論文で学ぶジョブレコメンデーション最前線2022
実務と論文で学ぶジョブレコメンデーション最前線2022
 
ゼロから始める転移学習
ゼロから始める転移学習ゼロから始める転移学習
ゼロから始める転移学習
 
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
 
リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例
 
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence
 
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
【メタサーベイ】Transformerから基盤モデルまでの流れ / From Transformer to Foundation Models
 
エンタープライズRuby on Rails ~エンプラでぶち当たった2つの壁と突破法~
エンタープライズRuby on Rails ~エンプラでぶち当たった2つの壁と突破法~エンタープライズRuby on Rails ~エンプラでぶち当たった2つの壁と突破法~
エンタープライズRuby on Rails ~エンプラでぶち当たった2つの壁と突破法~
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 
ユーザとベンダ双方にとって幸せなAI開発のための3つのポイント
ユーザとベンダ双方にとって幸せなAI開発のための3つのポイントユーザとベンダ双方にとって幸せなAI開発のための3つのポイント
ユーザとベンダ双方にとって幸せなAI開発のための3つのポイント
 
DSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめDSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめ
 
絶対に描いてはいけないグラフ入りスライド24枚
絶対に描いてはいけないグラフ入りスライド24枚絶対に描いてはいけないグラフ入りスライド24枚
絶対に描いてはいけないグラフ入りスライド24枚
 
ゲームのモデリング
ゲームのモデリングゲームのモデリング
ゲームのモデリング
 
DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
DX実践!~ビジネスアジリティ向上とマイクロサービス技術GraphQLの活用~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
AI開発を円滑に進めるための契約・法務・知財
AI開発を円滑に進めるための契約・法務・知財AI開発を円滑に進めるための契約・法務・知財
AI開発を円滑に進めるための契約・法務・知財
 
BERT分類ワークショップ.pptx
BERT分類ワークショップ.pptxBERT分類ワークショップ.pptx
BERT分類ワークショップ.pptx
 

Similar to サイエンス視点からのデータアーキテクト

ヤフーにおけるデータの可視化
ヤフーにおけるデータの可視化ヤフーにおけるデータの可視化
ヤフーにおけるデータの可視化
Sho Maekawa
 
YJTC18 D-7 Yahoo!ショッピングのサービスデータ活用事例
YJTC18 D-7 Yahoo!ショッピングのサービスデータ活用事例YJTC18 D-7 Yahoo!ショッピングのサービスデータ活用事例
YJTC18 D-7 Yahoo!ショッピングのサービスデータ活用事例
Yahoo!デベロッパーネットワーク
 
現場のインフラエンジニアから見たヤフー #ヤフー名古屋
現場のインフラエンジニアから見たヤフー #ヤフー名古屋現場のインフラエンジニアから見たヤフー #ヤフー名古屋
現場のインフラエンジニアから見たヤフー #ヤフー名古屋
Yahoo!デベロッパーネットワーク
 
メンター制によるHCD/UXD人財育成の取り組み
メンター制によるHCD/UXD人財育成の取り組みメンター制によるHCD/UXD人財育成の取り組み
メンター制によるHCD/UXD人財育成の取り組み
YasuyoKondo
 
私たち企業がアクセシビリティに取り組む理由(2018年) #accfes
私たち企業がアクセシビリティに取り組む理由(2018年) #accfes私たち企業がアクセシビリティに取り組む理由(2018年) #accfes
私たち企業がアクセシビリティに取り組む理由(2018年) #accfes
Yahoo!デベロッパーネットワーク
 
AI-OCR 導入最前線 (AI inside)
AI-OCR 導入最前線 (AI inside)AI-OCR 導入最前線 (AI inside)
AI-OCR 導入最前線 (AI inside)
Shotaro Umeda
 
Googleアシスタントアプリ実際のところ
Googleアシスタントアプリ実際のところ Googleアシスタントアプリ実際のところ
Googleアシスタントアプリ実際のところ
Yahoo!デベロッパーネットワーク
 
ヤフーにおけるTableau Blue Printの実践
ヤフーにおけるTableau Blue Printの実践ヤフーにおけるTableau Blue Printの実践
ヤフーにおけるTableau Blue Printの実践
Sho Maekawa
 
LOGLY会社概要.pdf
LOGLY会社概要.pdfLOGLY会社概要.pdf
LOGLY会社概要.pdf
ssuser2dc921
 
データエンジニアとデータアナリストを兼任して良かったこと
データエンジニアとデータアナリストを兼任して良かったことデータエンジニアとデータアナリストを兼任して良かったこと
データエンジニアとデータアナリストを兼任して良かったこと
Masatoshi Ida
 
片手間でもできる!BIレポート整備人のためのガイドライン
片手間でもできる!BIレポート整備人のためのガイドライン片手間でもできる!BIレポート整備人のためのガイドライン
片手間でもできる!BIレポート整備人のためのガイドライン
Sho Maekawa
 
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
Rakuten Group, Inc.
 
Yahoo!ショッピングの サービス開発
Yahoo!ショッピングの サービス開発Yahoo!ショッピングの サービス開発
Yahoo!ショッピングの サービス開発
Yahoo!デベロッパーネットワーク
 
データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)
データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)
データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)
株式会社MonotaRO Tech Team
 
[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』
[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』
[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』
Insight Technology, Inc.
 
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
Yahoo!デベロッパーネットワーク
 
ドメイン駆動設計とマイクロサービス
ドメイン駆動設計とマイクロサービスドメイン駆動設計とマイクロサービス
ドメイン駆動設計とマイクロサービス
kouki_mitsuishi
 
2016年度コーポレートフェローシップ活動報告(山本さん)
2016年度コーポレートフェローシップ活動報告(山本さん)2016年度コーポレートフェローシップ活動報告(山本さん)
2016年度コーポレートフェローシップ活動報告(山本さん)
Code for Japan
 
Let's BBQ with us!!
Let's BBQ with us!!Let's BBQ with us!!
Let's BBQ with us!!
Hironari Ono
 
Yahoo!ファイナンスでの開発
Yahoo!ファイナンスでの開発Yahoo!ファイナンスでの開発
Yahoo!ファイナンスでの開発
Yahoo!デベロッパーネットワーク
 

Similar to サイエンス視点からのデータアーキテクト (20)

ヤフーにおけるデータの可視化
ヤフーにおけるデータの可視化ヤフーにおけるデータの可視化
ヤフーにおけるデータの可視化
 
YJTC18 D-7 Yahoo!ショッピングのサービスデータ活用事例
YJTC18 D-7 Yahoo!ショッピングのサービスデータ活用事例YJTC18 D-7 Yahoo!ショッピングのサービスデータ活用事例
YJTC18 D-7 Yahoo!ショッピングのサービスデータ活用事例
 
現場のインフラエンジニアから見たヤフー #ヤフー名古屋
現場のインフラエンジニアから見たヤフー #ヤフー名古屋現場のインフラエンジニアから見たヤフー #ヤフー名古屋
現場のインフラエンジニアから見たヤフー #ヤフー名古屋
 
メンター制によるHCD/UXD人財育成の取り組み
メンター制によるHCD/UXD人財育成の取り組みメンター制によるHCD/UXD人財育成の取り組み
メンター制によるHCD/UXD人財育成の取り組み
 
私たち企業がアクセシビリティに取り組む理由(2018年) #accfes
私たち企業がアクセシビリティに取り組む理由(2018年) #accfes私たち企業がアクセシビリティに取り組む理由(2018年) #accfes
私たち企業がアクセシビリティに取り組む理由(2018年) #accfes
 
AI-OCR 導入最前線 (AI inside)
AI-OCR 導入最前線 (AI inside)AI-OCR 導入最前線 (AI inside)
AI-OCR 導入最前線 (AI inside)
 
Googleアシスタントアプリ実際のところ
Googleアシスタントアプリ実際のところ Googleアシスタントアプリ実際のところ
Googleアシスタントアプリ実際のところ
 
ヤフーにおけるTableau Blue Printの実践
ヤフーにおけるTableau Blue Printの実践ヤフーにおけるTableau Blue Printの実践
ヤフーにおけるTableau Blue Printの実践
 
LOGLY会社概要.pdf
LOGLY会社概要.pdfLOGLY会社概要.pdf
LOGLY会社概要.pdf
 
データエンジニアとデータアナリストを兼任して良かったこと
データエンジニアとデータアナリストを兼任して良かったことデータエンジニアとデータアナリストを兼任して良かったこと
データエンジニアとデータアナリストを兼任して良かったこと
 
片手間でもできる!BIレポート整備人のためのガイドライン
片手間でもできる!BIレポート整備人のためのガイドライン片手間でもできる!BIレポート整備人のためのガイドライン
片手間でもできる!BIレポート整備人のためのガイドライン
 
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
 
Yahoo!ショッピングの サービス開発
Yahoo!ショッピングの サービス開発Yahoo!ショッピングの サービス開発
Yahoo!ショッピングの サービス開発
 
データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)
データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)
データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料)
 
[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』
[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』
[db tech showcase Tokyo 2018] #dbts2018 #D23 『機械学習の自動化を実現するDataRobotによるAIの民主化とは』
 
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
 
ドメイン駆動設計とマイクロサービス
ドメイン駆動設計とマイクロサービスドメイン駆動設計とマイクロサービス
ドメイン駆動設計とマイクロサービス
 
2016年度コーポレートフェローシップ活動報告(山本さん)
2016年度コーポレートフェローシップ活動報告(山本さん)2016年度コーポレートフェローシップ活動報告(山本さん)
2016年度コーポレートフェローシップ活動報告(山本さん)
 
Let's BBQ with us!!
Let's BBQ with us!!Let's BBQ with us!!
Let's BBQ with us!!
 
Yahoo!ファイナンスでの開発
Yahoo!ファイナンスでの開発Yahoo!ファイナンスでの開発
Yahoo!ファイナンスでの開発
 

サイエンス視点からのデータアーキテクト

  • 1. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. サイエンス視点からの データアーキテクト 2019/11/27 ヤフー株式会社 堀野 将晴
  • 2. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 自己紹介 2013年:ヤフー株式会社へ入社 Yahoo!ダイニングでBE開発 2014年:サイエンス部へ Yahoo!ショッピング, GYAO! 主にデータエンジニアリング・分析業務 2018年:サイエンスチームのマネージャー データエンジニアリング・分析・モデリング 業務で扱うデータの幅が広がる ・Yahoo!ショッピング ・ヤフオク! ・Yahoo!トラベル ・YDN ・Yahoo!不動産 ・PayPayモール、PayPayフリマ…etc 2 堀野 将晴
  • 3. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 3 本日は サイエンスの立場から見た データアーキテクトの話 ※データアーキテクト=(データ整備人)とは、 「データエンジニア」と「アナリスト」「サイエンティスト」の間を埋める役割
  • 4. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. • 営業改善 • マーケティング改善 4 • プロダクト改善 (機械学習を用いた) • 全社のデータ利活用 サービス 例)Y!ショッピング サイエンス 例)Y!ショッピング改善チーム 機械学習でレコメンド作成 データPF • 行動ログの整備・基盤 • Hive,Presto,Spark環境 • ダッシュボード 組織 データの活用対象 • MapReduce, Hive, Spark • Apache Airflow, oozie • Teradata • BI、レポートツールと Workfolowエンジンは サービスによって様々 組織とデータ活用目的の違い ※主にデータで関わっている組織を抜粋 環境
  • 5. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 5 扱うデータ • 主に行動ログ,サービスのマスターログ • HDFS上のビックデータ 基本的なチーム構成 • モデリング・サービス実装までが1チーム • データPFや、サービス側の提供データを利用 サイエンスとデータ モデリング・分析のための前処理・可視化 データ活用の目的
  • 6. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 6 データアーキテクトに焦点を当て 失敗や学びを“前向き”に話します
  • 7. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. □データ整備の必要性 □データ整備人に求められるもの □データ整備人の仕事 1.ログ管理の難しさ 2.KPIダッシュボード 3.意図通りに使われないデータ 4.データ抽出業務 □データ整備人だからできる事 □価値を出すには 7
  • 8. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. □データ整備の必要性 □データ整備人に求められるもの □データ整備人の仕事 1.ログ管理の難しさ 2.KPIダッシュボード 3.意図通りに使われないデータ 4.データ抽出業務 □データ整備人だからできる事 □価値を出すには 8
  • 9. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. • 営業改善 • マーケティング改善 9 • 全社のデータ利活用 サービス データPF 組織 データの活用対象 データ整備は必要なのか? サイエンスでは ・データPF ・サービス の提供データを利用 • プロダクト改善 (機械学習を用いた) サイエンス
  • 10. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 10 データをサイエンスで使いたい サイエンス目的ではない データが 整っていない • 営業改善 • マーケティング改善 • 全社のデータ利活用 サービス データPF 組織 データの活用対象
  • 11. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 11 データPFの提供データを活用 大きなデータなので サイエンスで使うには前処理必須 • 時間もCPリソースも無駄 • フィルタ条件が違う 共通データが必要 • 全社のデータ利活用データPF
  • 12. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 12 サービスの提供データを活用 サービス側の データチームと 調整する人が必要 データの状況がわからない • そもそも何のデータが使えるのか不明 • HDFSにないので、 欲しいデータが欲しい時に使えない • 営業改善 • マーケティング改善 サービス
  • 13. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 13 サイエンスのデータ窓口となった
  • 14. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. □データ整備の必要性 □データ整備人に求められるもの □データ整備人の仕事 1.ログ管理の難しさ 2.KPIダッシュボード 3.意図通りに使われないデータ 4.データ抽出業務 □データ整備人だからできる事 □価値を出すには 14
  • 15. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 15 各サービス • データレイク、DWH • 分散処理、ストレージ • データパイプライン • フォーマット • BI、分析基盤周り • コミュニケーション • サービスドメイン知識 • サイエンス内でどんな 改善が行われているか • KPI、レポートの現状 サイエンスの整備人に求められるスキル データエンジニアスキル その他
  • 16. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 16 サイエンスの整備人に求められるスキル ビジネス価値を考えた動き ニーズに応じた • 開発 • 優先順位付け • コミュニケーション • サービスドメイン知識 • サイエンス内でどんな 改善が行われているか • KPI、レポートの現状 その他一番大切 多くのチームと関わる
  • 17. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 17 各サービス • データレイク、DWH • 分散処理、ストレージ • データパイプライン • フォーマット • BI、分析基盤周り サイエンスの整備人に求められるスキル 各サービス データ開発運用を サービスにお願いするのはダメ 目標の違い・リソースが逼迫 サービスで本来やるべき事が別にある データ環境の違い サイエンスはHDFSにデータが欲しい サービス側にあまり知見がない サービス側のデータエンジニアとの 共同開発が鍵 データエンジニアスキル
  • 18. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. □データ整備の必要性 □データ整備人に求められるもの □データ整備人の仕事 1.ログ管理の難しさ 2.KPIダッシュボード 3.意図通りに使われないデータ 4.データ抽出業務 □データ整備人だからできる事 □価値を出すには 18
  • 19. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 19 各サービス ログを設計/実装する人は実際にデータを使わない • 一箇所の集計だけを想定した設計 • 他のログに影響を与える • 使って初めてバグに気付く • キャンペーン計測のためのログ実装 ▶︎キャンペーン後にデータを見たらログがなかった ログ設計のルールは絶対必要 設計・実装側と整備人が認識合わせ ログ管理の難しさ
  • 20. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. □データ整備の必要性 □データ整備人に求められるもの □データ整備人の仕事 1.ログ管理の難しさ 2.KPIダッシュボード 3.意図通りに使われないデータ 4.データ抽出業務 □データ整備人だからできる事 □価値を出すには 20
  • 21. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 21 サイエンス改善のKPIを見れるようにした ほとんど利用していない状態に 使われないKPIダッシュボード
  • 22. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 22 利用されない理由 不要になった データを見る習慣がない どうしたか 運用コストの観点から 思い切って潰した (その時は自前のBIツールを作っていたので・・・) KPIは各々のPJで責任を持って追ってもらうことに サービス側とサイエンス側で共通の定義のKPI KPIダッシュボードの廃止
  • 23. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 23 若手が持ち回りで、KPIをまとめて共有 数値を見る文化 データを見る習慣は大切
  • 24. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. □データ整備の必要性 □データ整備人に求められるもの □データ整備人の仕事 1.ログ管理の難しさ 2.KPIダッシュボード 3.意図通りに使われないデータ 4.データ抽出業務 □データ整備人だからできる事 □価値を出すには 24
  • 25. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 25 各サービス 意図通りに使われないデータ Joinを不要にする 中間テーブル 中間テーブル
  • 26. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 26 各サービス 大元のテーブルと再Join 意図通りに使われないデータ Joinを不要にする 中間テーブル ユーザーの使い方 中間テーブル 各サービス
  • 27. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 27 大元のテーブルと再Join 意図通りに使われないデータ ユーザーの使い方 各サービス 想定外の使われ方 ユーザーの利用方法は 定期的にヒアリング アフタフォーローが大事 設計して終わりではなく 改善を回せるようにする
  • 28. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 28 意図通りに使われないデータ ドキュメントを残すだけでは不十分 利用者が気軽に相談できる仕組み •データの解釈を間違えて利用 •長期間改善が進まない
  • 29. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. □データ整備の必要性 □データ整備人に求められるもの □データ整備人の仕事 1.ログ管理の難しさ 2.KPIダッシュボード 3.意図通りに使われないデータ 4.データ抽出業務 □データ整備人だからできる事 □まとめ 29
  • 30. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 30 サービス側の見たいデータを出すお仕事 最初は分析タスクとしてチームでやっていた サイエンスの新卒で持ち回りで担当 新卒はデータ集計を覚えられる 分析という名のデータ抽出係
  • 31. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 31 サービス側は見たいデータが集計でき 新卒はデータ集計を覚えられる 疑問を感じていた 本質的には • BIで簡単に見れるようにするべき • サービス側でもデータ抽出できる人を増やすべき
  • 32. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 32 各サービス Hive集計塾“堀野塾”をサービス向けに開催 • 社内のデータ環境の説明 • 基礎的なHiveQL • 課題を持ってきてもらい、一緒に分析から考える 社内評価について • 持ち込み課題を社内のポスターセッションに提出 • サービス内の改善にも繋がった • 期末にアンケートを取り、フィードバックを もらった 集計塾の開催
  • 33. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 33 データ整備だけではなく 利活用促進の仕組みも考える
  • 34. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. □データ整備の必要性 □データ整備人に求められるもの □データ整備人の仕事 1.ログ管理の難しさ 2.KPIダッシュボード 3.意図通りに使われないデータ 4.データ抽出業務 □データ整備人だからできる事 □価値を出すには 34
  • 35. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 35 各サービス みんな積極的にやらないからこそ やる価値がある 皆から頼られ データに困ったら必ず相談される存在に 重宝される人材 必要性が認められてサイエンスに データアーキテクトとエンジニアリングを中心としたチームを結成
  • 36. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 36 メディア面のコンテンツ最適化 ヤフオク! このユーザーには どのサービスをオススメするべきか メディアにアクセス サービス横断の • レコメンド開発 Yahoo!ショッピング Yahoo!トラベル
  • 37. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 37 サービス横断の • レコメンド開発 • KPI設定 メディア面のコンテンツ最適化 ヤフオク! このユーザーには どのサービスをオススメするべきか メディアにアクセス 予算や意思決定に利用 各サービスがメディアに 掲載された時の価値を 同等に比較するため、 バラバラのKPIを統一 Yahoo!ショッピング Yahoo!トラベル
  • 38. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 38 サービス横断の • レコメンド開発 • KPI設定 • データ整備、設計開発 • BIツール整備 メディア面のコンテンツ最適化 ヤフオク! Yahoo!ショッピング Yahoo!トラベル このユーザーには どのサービスをオススメするべきか メディアにアクセス データアーキテクトの 仕事が重要
  • 39. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 39 サービス横断の • レコメンド開発 • KPI設定 • データ整備、設計開発 • BIツール整備 メディア面のコンテンツ最適化 ヤフオク! このユーザーには どのサービスをオススメするべきか メディアにアクセス データ整備人が中心にいるから成り立つ仕事 Yahoo!ショッピング Yahoo!トラベル
  • 40. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. □データ整備の必要性 □データ整備人に求められるもの □データ整備人の仕事 1.ログ管理の難しさ 2.KPIダッシュボード 3.意図通りに使われないデータ 4.データ抽出業務 □データ整備人だからできる事 □価値を出すには 40
  • 41. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 41 データアーキテクトで価値を出すには 整備されたデータを用いて 意思決定や改善に繋がるをゴールとする コミュニケーション データエンジニアリング 開発運用まで携わる 設計して終わりではなく、 作って使ってもらい 改善を回すのが大事 能動的に動く 多くのチームと関わる 現場の課題を汲み取る 価値の高い課題を探す データ活用の仕組み作り

Editor's Notes

  1. 新卒でヤフー株式会社へ入社後、ヤフーダイニングに配属され予約データ等を扱うバックエンド開発をしていました。 その次の年に、自身の希望でヤフーショッピングのデータサイエンス部門の立ち上げに加わり、GYAO!のレコメンド改善で主にデータエンジニアリング、分析業務を経験しました。 現在は、サイエンスチームのマネージャーとして、たくさんのサービスのデータを取り扱う仕事をしています。
  2. 本日はサイエンスの立場から見たデータアーキテクトの話をします。 ここでのデータアーキテクトとは「データエンジニア」と「アナリスト」「サイエンティスト」の間を埋める役割を解釈して聞いてください。
  3. 本題に入る前に まず、組織とデータ活用の目的の違いについて説明します データに関わる部署は大きくサービスとサイエンス、データPFがあり組織が分かれています。 データ活用対象もそれぞれ違い、 サービスであれば営業やマーケ サイエンスは機械学習を用いたプロダクト改善を行います。 データPFは全社向けに行動ログの整備や分散処理基盤、ダッシュボード等を提供しています。
  4. サイエンス内では、主にモデリング分析のための前処理・可視化にデータが使われます。 主なデータは、行動ログとマスタログの2種類で、HDFS上のビックデータが対象になります。 基本的にはモデリング、サービス実装までが1チームになっており、データPFやサービス側の提供データを利用しています。
  5. 今日は、そんなサイエンスの中でデータアーキテクトに焦点を当てて前向きに話します。
  6. アジェンダはこんな感じです。
  7. サイエンスでデータ整備は必要なのかという話です。
  8. サイエンスは、データPFが提供するデータやサービスが提供するデータを使っていました。
  9. サービスとデータPFのデータ活用対象はサイエンス目的ではないため、サイエンスとしてはデータが整っていない状況でした
  10. データPFが提供している行動ログのデータは非常に大きく、 同じ前処理をみんなで好きに実施したり、条件が個々でずれるという課題があり、 共通のデータが欲しいニーズがありました。
  11. また、サービス側の使えるデータに何があるのかわからない、 欲しいサービスのデータが利用できる環境になくすぐ使えないという課題があり、 サービス側のデータチームと調整する人が必要でした。
  12. 今思うとこれがアーキテクト仕事のきっかけだったかもしれません。
  13. サイエンスのデータアーキテクトに必要だった事を紹介します。
  14. 大きく2つ、エンジニアスキルとその他に分けました。
  15. 一番大切なのは、コミュニケーションスキルです。 非常に多くのチームと関わります。 また、サービスドメイン知識、サイエンス内でどんな改善が行われているか、KPIの現状を知ることが大事です。 これは、ニーズに応じた開発や優先順位づけに必要です。 ビジネス価値を考えた動きが必要です。
  16. また、データエンジニアスキルも必要でした。 現場ではデータアーキテクト部分だけをやって、サービス側のデータエンジニアに開発をお願いするのはうまくいきませんでした。 サービス側では、他にやるべきことがあり、リソースも逼迫した状況でした。 また、サイエンスが欲しいデータ環境は、サービス側とは異なるためエンジニアリング知識も新たに必要です。 なので、サービス側のデータエンジニアと共同開発がカギとなりました
  17. 今の話を踏まえ、次はデータ整備人の仕事をしていく上で、実施にあった困ったことをいくつか紹介します。
  18. ログを管理するのは非常に難しいです。 ログを設計、実装する人は実際にデータを使いません。 よくあることとしては一箇所の集計だけを想定していて、他のログに影響を与えたり、 バグがあるのに気づかないで、使って初めて落ちていないことに気づくということです。 ログ設計のルールは最低限必要な上で、設計、実装側と整備人のような人たちが認識合わせする必要があります。
  19. 次はKPIダッシュボードでの失敗談です。
  20. 昔、KPIダッシュボードをサイエンス改善むけに作っていました。 しかし、しばらくすると全く利用されていない状況になりました。
  21. 利用されない理由としては、不要になったやデータをみる習慣がないということでした。 この時は、運用コストの観点から思い切って潰しました。 KPIは各々のPJで責任を持ってもらうことにして、最低限 サービスとサイエンスで共通の定義のKPIにすることにしました。
  22. ただし、データを見る習慣がないのは良くないことです。 今は、若手が持ち回りでKPIをまとめて共有する時間を作ることにしました。
  23. 3つ目はユーザーは意図通りにデータを使ってくれるとは限らないという話です。
  24. プロダクト改善や分析にに使いやすいように、複雑なjoinをした中間テーブルを作ったことがあります。
  25. しかし、半年くらい経ってからユーザーは大元のテーブルと再joinしている事を知りました。
  26. このように想定外の使われ方をするのはよくあることで、ユーザーの利用方法は定期的にヒアリングの必要があると思います。 また、設計して終わりではなく改善を回すフローが必要だと思います。
  27. また、データの解釈を間違えて居て、長期間改善が進まないこともありました。 ドキュメントを残すだけでは不十分な部分もあり、利用者が気軽に相談できる仕組みも大事だと思います。
  28. 最後は、データ抽出の仕事についてです
  29. 最初はチームのタスクとして、サービス側の見たいデータをだす仕事をしていました。この作業をチームで続ける事が問題になり、 しばらくして、データ集計を覚えるいい訓練になるとのことで、新卒で担当することになりました。
  30. これでいいのか自分は疑問に感じていました。 短期的に見ればこれでいいのかもしれません。 しかし本質的には、見れないデータをBIで簡単に見るようにすべき サービス側でもデータ抽出できる人を増やすべきだと思っていました。 (あと、そもそもこれ分析じゃないし)
  31. そこで、サービス向けに集計塾を開催することにしました。 2年半くらいやったとお思います。 社内のデータ環境の説明や基本的なHiveQLの説明をして、課題を持ってきてもらい一緒に分析から考えました。 社内評価は、ポスターセッションに出してもらうことによってしっかりアウトプットをし、期末にアンケートを取ってフィードバックをもらい上長にアピールしたりました。
  32. データ整備だけではなく、利活用促進のための仕組みを考えるのは非常に大事です。
  33. 最後は、データ整備人だからできることをお話しします。
  34. みんなが積極的にやらないからこそ、やる価値があると思ってます。 皆から頼られ、データに困ったら必ず相談してくれる存在になります。 必要性が認められてチームを結成することになりました。
  35. 今のチームの仕事の一部を紹介します。 メディアにアクセスした時に、ユーザーにどのサービスをオススメするべきかという課題をやっています。 これは単にレコメンド開発だけではなく、
  36. 各サービスがメディアに掲載された時の価値を同等に比較するために サービスごとにバラバラのKPI計測を、同じ定義で統一する必要があります。
  37. その土台を整えるために、使うべきデータをサービスごとに整理しにいったり、 分析に使うためのデータウェアハウス、マート、BIツールで何を見るかを設計開発しなければなりません。 データアーキテクトの仕事が非常に重要です
  38. データ整備人が中心にいつからこそ成り立つ
  39. まとめです
  40. データアーキテクトで価値を出すには、コミュニケーションとエンジニアリングの2つが大事だと思います。 とにかく多くのチームと関わり、現場の課題を汲み取り、能動的に仕事をやることが大事です。要は貢献度が高い仕事を優先して取るべきということです。 それだけでなく、活用して価値を出してもらうところも考えるべきでしょう。 また、事業会社ではデータエンジニアリングとセットにして、仕事の価値を出しやすくすることも大事です。 設計して終わりではなく、改善も共に回すことができると思います。 整備して終わりではなく、意思決定や改善につながるというところをゴールとして働きましょう。