More Related Content
PPTX
PDF
PDF
PDF
スタートアップ共同創業者の見つけ方、付き合い方、別れ方 PDF
PPTX
PDF
Elasticsearch の検索精度のチューニング 〜テストを作って高速かつ安全に〜 PPTX
What's hot
PDF
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望 PDF
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介 PDF
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み PDF
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み PDF
大規模レガシー環境に立ち向かう有機的な開発フォーメーション #devsumi #devsumic PDF
PDF
PDF
PDF
PPTX
PDF
[DL輪読会]VNect: Real-time 3D Human Pose Estimation with a Single RGB Camera PPTX
SQL Server 使いのための Azure Synapse Analytics - Spark 入門 PDF
フロー効率性とリソース効率性、再入門 #devlove #devkan PDF
Elasticsearchベースの全文検索システムFess PDF
PDF
PDF
いつも働きすぎの CEO におくる、スタートアップの成功のための心と体の健康管理入門 PDF
クラウドのためのアーキテクチャ設計 - ベストプラクティス - PDF
PDF
Viewers also liked
PPTX
PDF
Yahoo! JAPANのサービス開発を10倍早くした社内PaaS構築の今とこれから PPTX
PDF
Yahoo!ブラウザーアプリのプロダクトマネージャーが考えていること PDF
行列ができるECサイトの悩み~ショッピングや決済の技術的問題と処方箋 PDF
PDF
ヤフオク!の快適なカスタマー体験を支えるモバイルアプリのライブアップデート技術 PDF
Yahoo! JAPANのCloud Foundry導入状況 PDF
PDF
PDF
PDF
DeepRemote: A Smart Remote Controller for Intuitive Control through Home Appl... PDF
#ibis2017 Description: IBIS2017の企画セッションでの発表資料 PDF
JavaOne2017参加報告 Microservices topic & approach #jjug PDF
Cassandra: Now and the Future @ Yahoo! JAPAN Similar to データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
PDF
データの見える化で進めるデータドリブンカンパニー #devsumiC PDF
PDF
PDF
データ管理に重要なことは事業と組織の理解だった(Data Engineering Study #11 発表資料) PDF
PDF
HCCJP teradata final_20190906 PPT
Big data harvardbusiessreview20121112 PDF
2024年度 株式会社フライウィール 会社紹介資料|採用への応募者に向けたご案内 PPTX
Oracle Data Minerハンズオンセミナー170927:③Business Analytics概要と事例 PPTX
CIVIC TECH FORUM_20170325 Local Gov Tech PDF
「Data Infrastructure at Scale 」#yjdsw4 PDF
データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015 PDF
Investment in Yahoo! JAPAN's dataplatform and business growth by big data PDF
PDF
PDF
ビッグデータ革命 クラウドがコモデティ化する「奇跡」 PPTX
YJTC18 Keynote Shape the Future - through the Power of Technology PPTX
Saga Smart Center: データ分析の基礎 PDF
デブサミ2013 【15-A-1】「爆速」を支えるテクノロジー PDF
JPC2018[A1]Microsoft Azure/AI で推進するビジネス改革 More from Yahoo!デベロッパーネットワーク
PDF
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2 PDF
継続的なモデルモニタリングを実現するKubernetes Operator PDF
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc PDF
ヤフーでは開発迅速性と品質のバランスをどう取ってるか PDF
PDF
PDF
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc PDF
「新しいおうち探し」のためのAIアシスト検索 #yjtc PDF
サイエンス領域におけるMLOpsの取り組み #yjtc PDF
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜 PDF
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc PDF
Persistent-memory-native Database High-availability Feature PDF
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc PDF
モブデザインによる多職種チームのコミュニケーション改善 #yjtc PDF
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc PDF
PDF
eコマースと実店舗の相互利益を目指したデザイン #yjtc PDF
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc PDF
オンプレML基盤on Kubernetes パネルディスカッション PDF
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
- 1.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
吉野 彰真
データテクノロジースペシャル:
Yahoo! JAPANにおける
メタデータ管理の試み
2017年2月16日
- 2.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
アジェンダ
1
1. 自己紹介
2. ヤフーの事業
3. ヤフーのビッグデータ
4. データマネジメント概論
5. メタデータ管理の取り組み
6. まとめ
- 3.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
自己紹介
2
データ&サイエンスソリューション統括本部
データガバナンスチーム
吉野 彰真 (YOSHINO Akimasa)
2011年 ヤフーに入社
大規模RDB環境(Oracle/MySQL)の
構築・運用を経て、データマネジメ
ント領域を担当
- 4.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
データ&サイエンスソリューション統括本部
3
データセンター
データ&サイエンス
Yahoo! JAPAN サービス
データプラットフォーム
サイエンス
データサービス
データ&サイエンスソリューション統括本部
研究所
- 5.
- 6.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
事業状況
5
20years
17
18
19
- 7.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
0
100
200
300
400
500
600
bilion U.S. dollars
企業価値
6
http://www.statista.com/statistics/277483/market-value-of-the-largest-internet-companies-worldwide/
as of May 2016
世界18位
- 8.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
ユーザー規模
7
9,000万1日約
ユニーク
ブラウザ
※出典:ヤフー株式会社 2016年度第3四半期事業指標推移表(2016年4月-12月の平均)
- 9.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
提供サービス
8
Media
US
Search Video Answer Mail
JP
US
JP
Membership C2C Payment C2C EC B2C EC Local
YAHOO! Google NETFLIX Quora GMail
Aol. PayPal ebay amazon yelp
- 10.
- 11.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
ネット企業から
データドリブン企業へ
- 12.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
データ = AIによる産業革命
11
ーーーーー
生産能力の向上
認知能力の向上
機械
AI
蒸気機関
ビッグデータ
●産業革命
●新産業革命
ビッグデータがないとAIは作れない
- 13.
- 14.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
マルチなデータセット
13
EC FinTech
メディア
など
など
など
- 15.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
データ = 直接的資産
14
検索
EC
金融
メッセージングサービス
地図、カーナビ
興味のある言葉
買ったもの
ユーザーの資産
自然言語
位置情報
- 16.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
データ = エコシステムの源泉
15
サービスや
機能を提供
データがたまる
データから
気づきを得る AI ユーザー
データ
- 17.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
データ = エコシステムの源泉
16
データから
気づきを得る
サービスや
機能を提供
データがたまる
AI ユーザ
データ
無限の再帰性
- 18.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
例: タイムライン
17
タイム
ライン
おすすめ AI
検索クエリ
クリック履歴
おすすめ
記事
検索
- 19.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
例:広告
18
クリック
したくなる
広告
(最適な情報)
検索
広告
Yahoo! JAPAN
サービス
パートナー
サイト
クリック履歴
検索クエリ
訪問履歴
PV履歴
AI
- 20.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
これからのヤフー
19
データから得た気づきを
最大限に活用した
ヤフーにしかできない
提案・サービス
- 21.
- 22.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
取り組んでいくこと
21
データを効率よく運用する
計算力の強化
人財の強化
サービスの磨き込み
ものづくりの変革
1
2
3
4
5
1
2
3
4
5
AI ユーザー
データ
- 23.
- 24.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
膨大なデータボリューム
23
月間 674億PV
PC + その他
281億 PV
Smart Phone
393億 PV
FY16-3Q事業指標 http://ir.yahoo.co.jp/jp/archives/present/2016q3/index.html
- 25.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
巨大なデータプラットフォーム
24
NoSQL
Object
Storage
DWHHadoop RDB
- 26.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
巨大なデータプラットフォーム
25
NoSQL
Object
Storage
DWHHadoop RDB
7,000 nodes
150PB
800
DBs
600,000
Query/day
1,500
nodes
2,000
nodes
*弊社独自の調査 2017年1月時点
- 27.
- 28.
- 29.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
どれだけ価値を引き出せるか?
28
?
- 30.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
どれだけ価値を引き出せるか?
29
?
データマネジメント
↓
データの資産化
資産価値の最大化
- 31.
- 32.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
フレームワーク
http://cmmiinstitute.com/data-management-maturity
Data Management Maturity (DMM)℠ Model
https://www.dama.org/content/body-knowledge
Data Management Body of Knowledge (DMBOK)
• PMBOK → DMBOK
• 知識体系
• CMMI → DMM
• 成熟度モデル
31
- 33.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
難しいポイント
データの構造 事業の構造 企業文化
32
- 34.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
ヤフーの考えるマネジメント領域
データスチュ
ワードシップ
メタデータ管理
データアーキ
テクチャ
データウェアハウス
&
ビジネスインテリジェン
ス
データストレー
ジ&オペレー
ション
データインテグ
レーション&イ
ンターオペラビ
リティ
データセキュリティ
ドキュメント&
コンテンツ
リファレンス&
マスターデータ
データモデリ
ング&デザイ
ン
データクォリ
ティ
33
- 35.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
ヤフーの考えるマネジメント領域
データスチュ
ワードシップ
メタデータ管理
データアーキ
テクチャ
データウェアハウ
ス&ビジネスインテ
リジェンス
データストレー
ジ&オペレー
ション
データインテグ
レーション&イ
ンターオペラビ
リティ
データセキュリティ
ドキュメント&
コンテンツ
リファレンス&
マスターデータ
データモデリ
ング&デザイ
ン
データクォリ
ティ
フレームワークを参考に領域を定義
領域ごとにやること整理
イニシアチブ化
34
- 36.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
目下注力しているイニシアチブ
35
a.データスチュワードシップ
b.データ標準化
c.データライフサイクル&エコシステム
d.メタデータ管理
- 37.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
a. データスチュワードシップ
カンパニーA カンパニーB カンパニーC
全社横断 ネットワーク 場の ・
36
- 38.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
サービスCカンパニーBカンパニーA サービスD
b. データ標準化
37
標準 計測と
- 39.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
c. データライフサイクル/エコシステム
38
・利用量の可視化
・利用状況の可視化
利用
・保管方針
・コスト可視化
蓄積
- 40.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved. 39
c. データライフサイクル/エコシステム
ログ種別毎 Hadoopアクセス回数(2016/2/1実績)
- 41.
- 42.
- 43.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
メタデータ管理とは?
42
• メタデータ = “データについてのデータ”
DATA
METADATA
{タイトル} {シリーズ}
{あらすじ}
{著者} {翻訳者}
{出版社} {版}
{発行年月日} {価格}
:
- 44.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
メタデータ管理とは?
43
メタデータ管理
= データ資産化の第一歩
- 45.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
メタデータの種類
44
テクニカルメタデータ テーブル/カラムの定義、ファイルパス、サーバ
ビジネスメタデータ 日本語の説明、コード体系(男性=0,女性=1)
運用メタデータ SLA、 連絡先、オーナー
データフロー
データ品質
データの価値
リネージ、加工元 → 加工先の関連
定量化・スコア化された指標、正確性・完全性・精度…
意思決定・ビジネス利用の実績・ポテンシャル
- 46.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
メタデータの種類
45
テクニカルメタデータ テーブル/カラムの定義、ファイルパス、サーバ
ビジネスメタデータ 日本語の説明、コード体系(男性=0,女性=1)
運用メタデータ SLA、 連絡先、オーナー
データフロー
データ品質
データの価値
リネージ、加工元 → 加工先の関連
定量化・スコア化された指標、正確性・完全性・精度…
意思決定・ビジネス利用の実績・ポテンシャル
- 47.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
メタデータの種類
46
テクニカルメタデータ テーブル/カラムの定義、ファイルパス、サーバ
ビジネスメタデータ 日本語の説明、コード体系(男性=0,女性=1)
運用メタデータ SLA、 連絡先、オーナー
データフロー
データ品質
データの価値
リネージ、加工元 → 加工先の関連
定量化・スコア化された指標、正確性・完全性・精度…
意思決定・ビジネス利用の実績・ポテンシャル
- 48.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
メタデータの種類
47
テクニカルメタデータ テーブル/カラムの定義、ファイルパス、サーバ
ビジネスメタデータ 日本語の説明、コード体系(男性=0,女性=1)
運用メタデータ SLA、 連絡先、オーナー
データフロー
データ品質
データの価値
リネージ、加工元 → 加工先の関連
定量化・スコア化された指標、正確性・完全性・精度…
意思決定・ビジネス利用の実績・ポテンシャル
- 49.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
メタデータの種類
48
テクニカルメタデータ テーブル/カラムの定義、ファイルパス、サーバ
ビジネスメタデータ 日本語の説明、コード体系(男性=0,女性=1)
運用メタデータ SLA、 連絡先、オーナー
データフロー
データ品質
データの価値
リネージ、加工元 → 加工先の関連
定量化・スコア化された指標、正確性・完全性・精度…
意思決定・ビジネス利用の実績・ポテンシャル
- 50.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
ポイント
49
課題ベースで選択
&
自動と人手
- 51.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
課題感 (1/2)
50
データ資産の全体観が把握できていない
存在レベルでもいいのでひととおり把握したい
? ? ? ?
× 横断利用
× 資産の把握
- 52.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
課題感 (2/2)
51
“人手” に 膨大な工数が必要
- 53.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
データ資産把握のイメージ
52
カバレッジ (100%)
充実度
- 54.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
データ資産把握のイメージ
53
カバレッジ (100%)
充実度
技術
- 55.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
データ資産把握のイメージ
54
カバレッジ (100%)
充実度
技術
ルール/マネジメント
- 56.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
メタデータ管理の仕組み(構想)
55
new
Hadoop
(HDFS) (Hive)
new
new
Object
Storage
(S3ライクなFS)
new
Teradata
new
RDB
Oracle/MySQL
new
KVS
準構造化 構造化 非構造化 構造化
メタデータ管理データプラットフォーム
網羅率100%で自動収集
ルールに基づき人手で追記
- 57.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
今後の予定
56
・仕組み構築 ・ルールの策定と展開
ソリューション 明快なルール
開発 スチュワードシップ
すべての事業の基礎としてやり遂げる
- 58.
- 59.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
まとめ
58
データ=資産
メタデータ管理は資産管理の第一歩
模範をめざす
- 60.
Copyright © 2017Yahoo Japan Corporation. All Rights Reserved.
仲間募集中!
59
日本の課題解決エンジンを支える
Yahoo! JAPAN の データ部門
スマホ or PC から
「ヤフー 採用」
で検索!
※写真はイメージです
名刺交換
or
- 61.