More Related Content
Similar to データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
Similar to データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み (20)
More from Yahoo!デベロッパーネットワーク
More from Yahoo!デベロッパーネットワーク (20)
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
- 1. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
吉野 彰真
データテクノロジースペシャル:
Yahoo! JAPANにおける
メタデータ管理の試み
2017年2月16日
- 2. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
アジェンダ
1
1. 自己紹介
2. ヤフーの事業
3. ヤフーのビッグデータ
4. データマネジメント概論
5. メタデータ管理の取り組み
6. まとめ
- 3. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
自己紹介
2
データ&サイエンスソリューション統括本部
データガバナンスチーム
吉野 彰真 (YOSHINO Akimasa)
2011年 ヤフーに入社
大規模RDB環境(Oracle/MySQL)の
構築・運用を経て、データマネジメ
ント領域を担当
- 4. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
データ&サイエンスソリューション統括本部
3
データセンター
データ&サイエンス
Yahoo! JAPAN サービス
データプラットフォーム
サイエンス
データサービス
データ&サイエンスソリューション統括本部
研究所
- 6. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
事業状況
5
20years
17
18
19
- 7. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
0
100
200
300
400
500
600
bilion U.S. dollars
企業価値
6
http://www.statista.com/statistics/277483/market-value-of-the-largest-internet-companies-worldwide/
as of May 2016
世界18位
- 8. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
ユーザー規模
7
9,000万1日約
ユニーク
ブラウザ
※出典:ヤフー株式会社 2016年度第3四半期事業指標推移表(2016年4月-12月の平均)
- 9. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
提供サービス
8
Media
US
Search Video Answer Mail
JP
US
JP
Membership C2C Payment C2C EC B2C EC Local
YAHOO! Google NETFLIX Quora GMail
Aol. PayPal ebay amazon yelp
- 11. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
ネット企業から
データドリブン企業へ
- 12. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
データ = AIによる産業革命
11
ーーーーー
生産能力の向上
認知能力の向上
機械
AI
蒸気機関
ビッグデータ
●産業革命
●新産業革命
ビッグデータがないとAIは作れない
- 14. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
マルチなデータセット
13
EC FinTech
メディア
など
など
など
- 15. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
データ = 直接的資産
14
検索
EC
金融
メッセージングサービス
地図、カーナビ
興味のある言葉
買ったもの
ユーザーの資産
自然言語
位置情報
- 16. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
データ = エコシステムの源泉
15
サービスや
機能を提供
データがたまる
データから
気づきを得る AI ユーザー
データ
- 17. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
データ = エコシステムの源泉
16
データから
気づきを得る
サービスや
機能を提供
データがたまる
AI ユーザ
データ
無限の再帰性
- 18. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
例: タイムライン
17
タイム
ライン
おすすめ AI
検索クエリ
クリック履歴
おすすめ
記事
検索
- 19. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
例:広告
18
クリック
したくなる
広告
(最適な情報)
検索
広告
Yahoo! JAPAN
サービス
パートナー
サイト
クリック履歴
検索クエリ
訪問履歴
PV履歴
AI
- 20. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
これからのヤフー
19
データから得た気づきを
最大限に活用した
ヤフーにしかできない
提案・サービス
- 22. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
取り組んでいくこと
21
データを効率よく運用する
計算力の強化
人財の強化
サービスの磨き込み
ものづくりの変革
1
2
3
4
5
1
2
3
4
5
AI ユーザー
データ
- 23. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
2. ヤフーのビッグデータ
- 24. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
膨大なデータボリューム
23
月間 674億PV
PC + その他
281億 PV
Smart Phone
393億 PV
FY16-3Q事業指標 http://ir.yahoo.co.jp/jp/archives/present/2016q3/index.html
- 25. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
巨大なデータプラットフォーム
24
NoSQL
Object
Storage
DWHHadoop RDB
- 26. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
巨大なデータプラットフォーム
25
NoSQL
Object
Storage
DWHHadoop RDB
7,000 nodes
150PB
800
DBs
600,000
Query/day
1,500
nodes
2,000
nodes
*弊社独自の調査 2017年1月時点
- 29. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
どれだけ価値を引き出せるか?
28
?
- 30. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
どれだけ価値を引き出せるか?
29
?
データマネジメント
↓
データの資産化
資産価値の最大化
- 31. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
3. データマネジメント概論
- 32. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
フレームワーク
http://cmmiinstitute.com/data-management-maturity
Data Management Maturity (DMM)℠ Model
https://www.dama.org/content/body-knowledge
Data Management Body of Knowledge (DMBOK)
• PMBOK → DMBOK
• 知識体系
• CMMI → DMM
• 成熟度モデル
31
- 33. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
難しいポイント
データの構造 事業の構造 企業文化
32
- 34. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
ヤフーの考えるマネジメント領域
データスチュ
ワードシップ
メタデータ管理
データアーキ
テクチャ
データウェアハウス
&
ビジネスインテリジェン
ス
データストレー
ジ&オペレー
ション
データインテグ
レーション&イ
ンターオペラビ
リティ
データセキュリティ
ドキュメント&
コンテンツ
リファレンス&
マスターデータ
データモデリ
ング&デザイ
ン
データクォリ
ティ
33
- 35. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
ヤフーの考えるマネジメント領域
データスチュ
ワードシップ
メタデータ管理
データアーキ
テクチャ
データウェアハウ
ス&ビジネスインテ
リジェンス
データストレー
ジ&オペレー
ション
データインテグ
レーション&イ
ンターオペラビ
リティ
データセキュリティ
ドキュメント&
コンテンツ
リファレンス&
マスターデータ
データモデリ
ング&デザイ
ン
データクォリ
ティ
フレームワークを参考に領域を定義
領域ごとにやること整理
イニシアチブ化
34
- 36. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
目下注力しているイニシアチブ
35
a.データスチュワードシップ
b.データ標準化
c.データライフサイクル&エコシステム
d.メタデータ管理
- 37. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
a. データスチュワードシップ
カンパニーA カンパニーB カンパニーC
全社横断 ネットワーク 場の ・
36
- 38. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
サービスCカンパニーBカンパニーA サービスD
b. データ標準化
37
標準 計測と
- 39. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
c. データライフサイクル/エコシステム
38
・利用量の可視化
・利用状況の可視化
利用
・保管方針
・コスト可視化
蓄積
- 40. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 39
c. データライフサイクル/エコシステム
ログ種別毎 Hadoopアクセス回数(2016/2/1実績)
- 41. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 40
d. メタデータ管理
- 42. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
4. メタデータ管理の
取り組み
- 43. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
メタデータ管理とは?
42
• メタデータ = “データについてのデータ”
DATA
METADATA
{タイトル} {シリーズ}
{あらすじ}
{著者} {翻訳者}
{出版社} {版}
{発行年月日} {価格}
:
- 44. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
メタデータ管理とは?
43
メタデータ管理
= データ資産化の第一歩
- 45. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
メタデータの種類
44
テクニカルメタデータ テーブル/カラムの定義、ファイルパス、サーバ
ビジネスメタデータ 日本語の説明、コード体系(男性=0,女性=1)
運用メタデータ SLA、 連絡先、オーナー
データフロー
データ品質
データの価値
リネージ、加工元 → 加工先の関連
定量化・スコア化された指標、正確性・完全性・精度…
意思決定・ビジネス利用の実績・ポテンシャル
- 46. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
メタデータの種類
45
テクニカルメタデータ テーブル/カラムの定義、ファイルパス、サーバ
ビジネスメタデータ 日本語の説明、コード体系(男性=0,女性=1)
運用メタデータ SLA、 連絡先、オーナー
データフロー
データ品質
データの価値
リネージ、加工元 → 加工先の関連
定量化・スコア化された指標、正確性・完全性・精度…
意思決定・ビジネス利用の実績・ポテンシャル
- 47. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
メタデータの種類
46
テクニカルメタデータ テーブル/カラムの定義、ファイルパス、サーバ
ビジネスメタデータ 日本語の説明、コード体系(男性=0,女性=1)
運用メタデータ SLA、 連絡先、オーナー
データフロー
データ品質
データの価値
リネージ、加工元 → 加工先の関連
定量化・スコア化された指標、正確性・完全性・精度…
意思決定・ビジネス利用の実績・ポテンシャル
- 48. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
メタデータの種類
47
テクニカルメタデータ テーブル/カラムの定義、ファイルパス、サーバ
ビジネスメタデータ 日本語の説明、コード体系(男性=0,女性=1)
運用メタデータ SLA、 連絡先、オーナー
データフロー
データ品質
データの価値
リネージ、加工元 → 加工先の関連
定量化・スコア化された指標、正確性・完全性・精度…
意思決定・ビジネス利用の実績・ポテンシャル
- 49. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
メタデータの種類
48
テクニカルメタデータ テーブル/カラムの定義、ファイルパス、サーバ
ビジネスメタデータ 日本語の説明、コード体系(男性=0,女性=1)
運用メタデータ SLA、 連絡先、オーナー
データフロー
データ品質
データの価値
リネージ、加工元 → 加工先の関連
定量化・スコア化された指標、正確性・完全性・精度…
意思決定・ビジネス利用の実績・ポテンシャル
- 50. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
ポイント
49
課題ベースで選択
&
自動と人手
- 51. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
課題感 (1/2)
50
データ資産の全体観が把握できていない
存在レベルでもいいのでひととおり把握したい
? ? ? ?
× 横断利用
× 資産の把握
- 52. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
課題感 (2/2)
51
“人手” に 膨大な工数が必要
- 53. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
データ資産把握のイメージ
52
カバレッジ (100%)
充実度
- 54. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
データ資産把握のイメージ
53
カバレッジ (100%)
充実度
技術
- 55. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
データ資産把握のイメージ
54
カバレッジ (100%)
充実度
技術
ルール/マネジメント
- 56. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
メタデータ管理の仕組み(構想)
55
new
Hadoop
(HDFS) (Hive)
new
new
Object
Storage
(S3ライクなFS)
new
Teradata
new
RDB
Oracle/MySQL
new
KVS
準構造化 構造化 非構造化 構造化
メタデータ管理データプラットフォーム
網羅率100%で自動収集
ルールに基づき人手で追記
- 57. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
今後の予定
56
・仕組み構築 ・ルールの策定と展開
ソリューション 明快なルール
開発 スチュワードシップ
すべての事業の基礎としてやり遂げる
- 59. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
まとめ
58
データ=資産
メタデータ管理は資産管理の第一歩
模範をめざす
- 60. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
仲間募集中!
59
日本の課題解決エンジンを支える
Yahoo! JAPAN の データ部門
スマホ or PC から
「ヤフー 採用」
で検索!
※写真はイメージです
名刺交換
or