Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

サイエンス視点からのデータアーキテクト

2,311 views

Published on

2019/11/27 データアーキテクト(データ整備人)を”前向きに”考える会の登壇資料です。
https://analytics-and-intelligence.connpass.com/event/153899/

Published in: Data & Analytics
  • Be the first to comment

サイエンス視点からのデータアーキテクト

  1. 1. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. サイエンス視点からの データアーキテクト 2019/11/27 ヤフー株式会社 堀野 将晴
  2. 2. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 自己紹介 2013年:ヤフー株式会社へ入社 Yahoo!ダイニングでBE開発 2014年:サイエンス部へ Yahoo!ショッピング, GYAO! 主にデータエンジニアリング・分析業務 2018年:サイエンスチームのマネージャー データエンジニアリング・分析・モデリング 業務で扱うデータの幅が広がる ・Yahoo!ショッピング ・ヤフオク! ・Yahoo!トラベル ・YDN ・Yahoo!不動産 ・PayPayモール、PayPayフリマ…etc 2 堀野 将晴
  3. 3. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 3 本日は サイエンスの立場から見た データアーキテクトの話 ※データアーキテクト=(データ整備人)とは、 「データエンジニア」と「アナリスト」「サイエンティスト」の間を埋める役割
  4. 4. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. • 営業改善 • マーケティング改善 4 • プロダクト改善 (機械学習を用いた) • 全社のデータ利活用 サービス 例)Y!ショッピング サイエンス 例)Y!ショッピング改善チーム 機械学習でレコメンド作成 データPF • 行動ログの整備・基盤 • Hive,Presto,Spark環境 • ダッシュボード 組織 データの活用対象 • MapReduce, Hive, Spark • Apache Airflow, oozie • Teradata • BI、レポートツールと Workfolowエンジンは サービスによって様々 組織とデータ活用目的の違い ※主にデータで関わっている組織を抜粋 環境
  5. 5. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 5 扱うデータ • 主に行動ログ,サービスのマスターログ • HDFS上のビックデータ 基本的なチーム構成 • モデリング・サービス実装までが1チーム • データPFや、サービス側の提供データを利用 サイエンスとデータ モデリング・分析のための前処理・可視化 データ活用の目的
  6. 6. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 6 データアーキテクトに焦点を当て 失敗や学びを“前向き”に話します
  7. 7. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. □データ整備の必要性 □データ整備人に求められるもの □データ整備人の仕事 1.ログ管理の難しさ 2.KPIダッシュボード 3.意図通りに使われないデータ 4.データ抽出業務 □データ整備人だからできる事 □価値を出すには 7
  8. 8. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. □データ整備の必要性 □データ整備人に求められるもの □データ整備人の仕事 1.ログ管理の難しさ 2.KPIダッシュボード 3.意図通りに使われないデータ 4.データ抽出業務 □データ整備人だからできる事 □価値を出すには 8
  9. 9. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. • 営業改善 • マーケティング改善 9 • 全社のデータ利活用 サービス データPF 組織 データの活用対象 データ整備は必要なのか? サイエンスでは ・データPF ・サービス の提供データを利用 • プロダクト改善 (機械学習を用いた) サイエンス
  10. 10. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 10 データをサイエンスで使いたい サイエンス目的ではない データが 整っていない • 営業改善 • マーケティング改善 • 全社のデータ利活用 サービス データPF 組織 データの活用対象
  11. 11. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 11 データPFの提供データを活用 大きなデータなので サイエンスで使うには前処理必須 • 時間もCPリソースも無駄 • フィルタ条件が違う 共通データが必要 • 全社のデータ利活用データPF
  12. 12. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 12 サービスの提供データを活用 サービス側の データチームと 調整する人が必要 データの状況がわからない • そもそも何のデータが使えるのか不明 • HDFSにないので、 欲しいデータが欲しい時に使えない • 営業改善 • マーケティング改善 サービス
  13. 13. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 13 サイエンスのデータ窓口となった
  14. 14. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. □データ整備の必要性 □データ整備人に求められるもの □データ整備人の仕事 1.ログ管理の難しさ 2.KPIダッシュボード 3.意図通りに使われないデータ 4.データ抽出業務 □データ整備人だからできる事 □価値を出すには 14
  15. 15. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 15 各サービス • データレイク、DWH • 分散処理、ストレージ • データパイプライン • フォーマット • BI、分析基盤周り • コミュニケーション • サービスドメイン知識 • サイエンス内でどんな 改善が行われているか • KPI、レポートの現状 サイエンスの整備人に求められるスキル データエンジニアスキル その他
  16. 16. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 16 サイエンスの整備人に求められるスキル ビジネス価値を考えた動き ニーズに応じた • 開発 • 優先順位付け • コミュニケーション • サービスドメイン知識 • サイエンス内でどんな 改善が行われているか • KPI、レポートの現状 その他一番大切 多くのチームと関わる
  17. 17. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 17 各サービス • データレイク、DWH • 分散処理、ストレージ • データパイプライン • フォーマット • BI、分析基盤周り サイエンスの整備人に求められるスキル 各サービス データ開発運用を サービスにお願いするのはダメ 目標の違い・リソースが逼迫 サービスで本来やるべき事が別にある データ環境の違い サイエンスはHDFSにデータが欲しい サービス側にあまり知見がない サービス側のデータエンジニアとの 共同開発が鍵 データエンジニアスキル
  18. 18. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. □データ整備の必要性 □データ整備人に求められるもの □データ整備人の仕事 1.ログ管理の難しさ 2.KPIダッシュボード 3.意図通りに使われないデータ 4.データ抽出業務 □データ整備人だからできる事 □価値を出すには 18
  19. 19. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 19 各サービス ログを設計/実装する人は実際にデータを使わない • 一箇所の集計だけを想定した設計 • 他のログに影響を与える • 使って初めてバグに気付く • キャンペーン計測のためのログ実装 ▶︎キャンペーン後にデータを見たらログがなかった ログ設計のルールは絶対必要 設計・実装側と整備人が認識合わせ ログ管理の難しさ
  20. 20. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. □データ整備の必要性 □データ整備人に求められるもの □データ整備人の仕事 1.ログ管理の難しさ 2.KPIダッシュボード 3.意図通りに使われないデータ 4.データ抽出業務 □データ整備人だからできる事 □価値を出すには 20
  21. 21. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 21 サイエンス改善のKPIを見れるようにした ほとんど利用していない状態に 使われないKPIダッシュボード
  22. 22. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 22 利用されない理由 不要になった データを見る習慣がない どうしたか 運用コストの観点から 思い切って潰した (その時は自前のBIツールを作っていたので・・・) KPIは各々のPJで責任を持って追ってもらうことに サービス側とサイエンス側で共通の定義のKPI KPIダッシュボードの廃止
  23. 23. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 23 若手が持ち回りで、KPIをまとめて共有 数値を見る文化 データを見る習慣は大切
  24. 24. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. □データ整備の必要性 □データ整備人に求められるもの □データ整備人の仕事 1.ログ管理の難しさ 2.KPIダッシュボード 3.意図通りに使われないデータ 4.データ抽出業務 □データ整備人だからできる事 □価値を出すには 24
  25. 25. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 25 各サービス 意図通りに使われないデータ Joinを不要にする 中間テーブル 中間テーブル
  26. 26. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 26 各サービス 大元のテーブルと再Join 意図通りに使われないデータ Joinを不要にする 中間テーブル ユーザーの使い方 中間テーブル 各サービス
  27. 27. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 27 大元のテーブルと再Join 意図通りに使われないデータ ユーザーの使い方 各サービス 想定外の使われ方 ユーザーの利用方法は 定期的にヒアリング アフタフォーローが大事 設計して終わりではなく 改善を回せるようにする
  28. 28. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 28 意図通りに使われないデータ ドキュメントを残すだけでは不十分 利用者が気軽に相談できる仕組み •データの解釈を間違えて利用 •長期間改善が進まない
  29. 29. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. □データ整備の必要性 □データ整備人に求められるもの □データ整備人の仕事 1.ログ管理の難しさ 2.KPIダッシュボード 3.意図通りに使われないデータ 4.データ抽出業務 □データ整備人だからできる事 □まとめ 29
  30. 30. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 30 サービス側の見たいデータを出すお仕事 最初は分析タスクとしてチームでやっていた サイエンスの新卒で持ち回りで担当 新卒はデータ集計を覚えられる 分析という名のデータ抽出係
  31. 31. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 31 サービス側は見たいデータが集計でき 新卒はデータ集計を覚えられる 疑問を感じていた 本質的には • BIで簡単に見れるようにするべき • サービス側でもデータ抽出できる人を増やすべき
  32. 32. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 32 各サービス Hive集計塾“堀野塾”をサービス向けに開催 • 社内のデータ環境の説明 • 基礎的なHiveQL • 課題を持ってきてもらい、一緒に分析から考える 社内評価について • 持ち込み課題を社内のポスターセッションに提出 • サービス内の改善にも繋がった • 期末にアンケートを取り、フィードバックを もらった 集計塾の開催
  33. 33. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 33 データ整備だけではなく 利活用促進の仕組みも考える
  34. 34. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. □データ整備の必要性 □データ整備人に求められるもの □データ整備人の仕事 1.ログ管理の難しさ 2.KPIダッシュボード 3.意図通りに使われないデータ 4.データ抽出業務 □データ整備人だからできる事 □価値を出すには 34
  35. 35. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 35 各サービス みんな積極的にやらないからこそ やる価値がある 皆から頼られ データに困ったら必ず相談される存在に 重宝される人材 必要性が認められてサイエンスに データアーキテクトとエンジニアリングを中心としたチームを結成
  36. 36. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 36 メディア面のコンテンツ最適化 ヤフオク! このユーザーには どのサービスをオススメするべきか メディアにアクセス サービス横断の • レコメンド開発 Yahoo!ショッピング Yahoo!トラベル
  37. 37. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 37 サービス横断の • レコメンド開発 • KPI設定 メディア面のコンテンツ最適化 ヤフオク! このユーザーには どのサービスをオススメするべきか メディアにアクセス 予算や意思決定に利用 各サービスがメディアに 掲載された時の価値を 同等に比較するため、 バラバラのKPIを統一 Yahoo!ショッピング Yahoo!トラベル
  38. 38. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 38 サービス横断の • レコメンド開発 • KPI設定 • データ整備、設計開発 • BIツール整備 メディア面のコンテンツ最適化 ヤフオク! Yahoo!ショッピング Yahoo!トラベル このユーザーには どのサービスをオススメするべきか メディアにアクセス データアーキテクトの 仕事が重要
  39. 39. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 39 サービス横断の • レコメンド開発 • KPI設定 • データ整備、設計開発 • BIツール整備 メディア面のコンテンツ最適化 ヤフオク! このユーザーには どのサービスをオススメするべきか メディアにアクセス データ整備人が中心にいるから成り立つ仕事 Yahoo!ショッピング Yahoo!トラベル
  40. 40. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. □データ整備の必要性 □データ整備人に求められるもの □データ整備人の仕事 1.ログ管理の難しさ 2.KPIダッシュボード 3.意図通りに使われないデータ 4.データ抽出業務 □データ整備人だからできる事 □価値を出すには 40
  41. 41. Copyright (C) 2019 Yahoo Japan Corporation. All Rights Reserved. 41 データアーキテクトで価値を出すには 整備されたデータを用いて 意思決定や改善に繋がるをゴールとする コミュニケーション データエンジニアリング 開発運用まで携わる 設計して終わりではなく、 作って使ってもらい 改善を回すのが大事 能動的に動く 多くのチームと関わる 現場の課題を汲み取る 価値の高い課題を探す データ活用の仕組み作り

×