Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Yahoo!デベロッパーネットワーク
PPTX, PDF
6,730 views
データ利活用を促進するメタデータ
ヤフーのメタデータ可視化の取り組みについて紹介します。メタデータを3つのlayerに分類してそれぞれの課題と対応について説明します
Technology
◦
Read more
11
Save
Share
Embed
Embed presentation
Download
Downloaded 109 times
1
/ 40
2
/ 40
3
/ 40
4
/ 40
5
/ 40
6
/ 40
7
/ 40
8
/ 40
9
/ 40
10
/ 40
11
/ 40
12
/ 40
13
/ 40
14
/ 40
15
/ 40
16
/ 40
17
/ 40
18
/ 40
19
/ 40
20
/ 40
21
/ 40
22
/ 40
23
/ 40
24
/ 40
25
/ 40
26
/ 40
27
/ 40
28
/ 40
29
/ 40
30
/ 40
31
/ 40
32
/ 40
33
/ 40
34
/ 40
35
/ 40
36
/ 40
37
/ 40
38
/ 40
39
/ 40
40
/ 40
More Related Content
PDF
データ分析を支える技術 データ分析基盤再入門
by
Satoru Ishikawa
PPTX
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
by
Tokoroten Nakayama
PDF
AWS Black Belt Online Seminar 2018 Amazon DynamoDB Advanced Design Pattern
by
Amazon Web Services Japan
PDF
Data platformdesign
by
Ryoma Nagata
PPTX
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
by
NTT DATA Technology & Innovation
PDF
The Twelve-Factor Appで考えるAWSのサービス開発
by
Amazon Web Services Japan
PDF
マルチテナント化で知っておきたいデータベースのこと
by
Amazon Web Services Japan
PDF
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
by
Noritaka Sekiyama
データ分析を支える技術 データ分析基盤再入門
by
Satoru Ishikawa
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
by
Tokoroten Nakayama
AWS Black Belt Online Seminar 2018 Amazon DynamoDB Advanced Design Pattern
by
Amazon Web Services Japan
Data platformdesign
by
Ryoma Nagata
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
by
NTT DATA Technology & Innovation
The Twelve-Factor Appで考えるAWSのサービス開発
by
Amazon Web Services Japan
マルチテナント化で知っておきたいデータベースのこと
by
Amazon Web Services Japan
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
by
Noritaka Sekiyama
What's hot
PDF
全社のデータ活用を一段階上げる取り組み
by
株式会社MonotaRO Tech Team
PPTX
データ収集の基本と「JapanTaxi」アプリにおける実践例
by
Tetsutaro Watanabe
PDF
データ分析を支える技術 DWH再入門
by
Satoru Ishikawa
PDF
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
by
NTT DATA Technology & Innovation
PDF
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
by
Google Cloud Platform - Japan
PDF
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
by
Amazon Web Services Japan
PPTX
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
by
NTT DATA Technology & Innovation
PDF
ここが良かったDatadog
by
tyamane
PDF
20190130 AWS Well-Architectedの活用方法とレビューの進め方をお伝えしていきたい
by
Amazon Web Services Japan
PDF
Effective Data Lakes - ユースケースとデザインパターン
by
Noritaka Sekiyama
PDF
20200812 AWS Black Belt Online Seminar Amazon Macie
by
Amazon Web Services Japan
PPTX
え!?データがオンプレにあるけどPower BI で BI したいの?
by
Yugo Shimizu
PDF
リクルートが実践で学んできた“セルフBI”推進に求められる3つの要素
by
Recruit Technologies
PPTX
AWSで作る分析基盤
by
Yu Otsubo
PDF
Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料)
by
NTT DATA Technology & Innovation
PDF
マルチテナントのアプリケーション実装〜実践編〜
by
Yoshiki Nakagawa
PDF
[Cloud OnAir] BigQuery ML と AutoML Tables で はじめるマーケティング分析入門 2019年5月23日 放送
by
Google Cloud Platform - Japan
PDF
Azure Synapse Analytics 専用SQL Poolベストプラクティス
by
Microsoft
PPTX
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
by
Daiyu Hatakeyama
PDF
Oracle GoldenGate入門
by
オラクルエンジニア通信
全社のデータ活用を一段階上げる取り組み
by
株式会社MonotaRO Tech Team
データ収集の基本と「JapanTaxi」アプリにおける実践例
by
Tetsutaro Watanabe
データ分析を支える技術 DWH再入門
by
Satoru Ishikawa
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
by
NTT DATA Technology & Innovation
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
by
Google Cloud Platform - Japan
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
by
Amazon Web Services Japan
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
by
NTT DATA Technology & Innovation
ここが良かったDatadog
by
tyamane
20190130 AWS Well-Architectedの活用方法とレビューの進め方をお伝えしていきたい
by
Amazon Web Services Japan
Effective Data Lakes - ユースケースとデザインパターン
by
Noritaka Sekiyama
20200812 AWS Black Belt Online Seminar Amazon Macie
by
Amazon Web Services Japan
え!?データがオンプレにあるけどPower BI で BI したいの?
by
Yugo Shimizu
リクルートが実践で学んできた“セルフBI”推進に求められる3つの要素
by
Recruit Technologies
AWSで作る分析基盤
by
Yu Otsubo
Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料)
by
NTT DATA Technology & Innovation
マルチテナントのアプリケーション実装〜実践編〜
by
Yoshiki Nakagawa
[Cloud OnAir] BigQuery ML と AutoML Tables で はじめるマーケティング分析入門 2019年5月23日 放送
by
Google Cloud Platform - Japan
Azure Synapse Analytics 専用SQL Poolベストプラクティス
by
Microsoft
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
by
Daiyu Hatakeyama
Oracle GoldenGate入門
by
オラクルエンジニア通信
Viewers also liked
PDF
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
by
Yahoo!デベロッパーネットワーク
PDF
Linked Dataとオントロジーによるセマンティック技術の実際
by
Kouji Kozaki
PDF
第4回 NIPS+読み会・関西 発表資料 山本
by
Yahoo!デベロッパーネットワーク
PDF
ICML2017 参加報告会 山本康生
by
Yahoo!デベロッパーネットワーク
PDF
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
by
Yahoo!デベロッパーネットワーク
PDF
JavaOne2017参加報告 Microservices topic & approach #jjug
by
Yahoo!デベロッパーネットワーク
PDF
決済金融から始めるデータドリブンカンパニー #yjmu
by
Yahoo!デベロッパーネットワーク
PDF
Cassandra: Now and the Future @ Yahoo! JAPAN
by
Yahoo!デベロッパーネットワーク
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
by
Yahoo!デベロッパーネットワーク
Linked Dataとオントロジーによるセマンティック技術の実際
by
Kouji Kozaki
第4回 NIPS+読み会・関西 発表資料 山本
by
Yahoo!デベロッパーネットワーク
ICML2017 参加報告会 山本康生
by
Yahoo!デベロッパーネットワーク
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
by
Yahoo!デベロッパーネットワーク
JavaOne2017参加報告 Microservices topic & approach #jjug
by
Yahoo!デベロッパーネットワーク
決済金融から始めるデータドリブンカンパニー #yjmu
by
Yahoo!デベロッパーネットワーク
Cassandra: Now and the Future @ Yahoo! JAPAN
by
Yahoo!デベロッパーネットワーク
Similar to データ利活用を促進するメタデータ
PDF
データの見える化で進めるデータドリブンカンパニー #devsumiC
by
Yahoo!デベロッパーネットワーク
PPTX
データ可視化の研究って何をしているの?何の役に立つ?
by
Kazuyo Mizuno
PDF
データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015
by
Yahoo!デベロッパーネットワーク
PPTX
サイエンス視点からのデータアーキテクト
by
Masaharu Horino
PPTX
CIVIC TECH FORUM_20170325 Local Gov Tech
by
Masaki Takeda
PDF
Welcome to opendata world
by
Nobuo Kawaguchi
PDF
20141217 オープンデータを取り巻く動向とビジネス創造
by
Hayashi Masayuki
データの見える化で進めるデータドリブンカンパニー #devsumiC
by
Yahoo!デベロッパーネットワーク
データ可視化の研究って何をしているの?何の役に立つ?
by
Kazuyo Mizuno
データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015
by
Yahoo!デベロッパーネットワーク
サイエンス視点からのデータアーキテクト
by
Masaharu Horino
CIVIC TECH FORUM_20170325 Local Gov Tech
by
Masaki Takeda
Welcome to opendata world
by
Nobuo Kawaguchi
20141217 オープンデータを取り巻く動向とビジネス創造
by
Hayashi Masayuki
More from Yahoo!デベロッパーネットワーク
PDF
継続的なモデルモニタリングを実現するKubernetes Operator
by
Yahoo!デベロッパーネットワーク
PDF
ゼロから始める転移学習
by
Yahoo!デベロッパーネットワーク
PDF
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
by
Yahoo!デベロッパーネットワーク
PDF
ヤフーでは開発迅速性と品質のバランスをどう取ってるか
by
Yahoo!デベロッパーネットワーク
PDF
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
by
Yahoo!デベロッパーネットワーク
PDF
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
by
Yahoo!デベロッパーネットワーク
PDF
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
by
Yahoo!デベロッパーネットワーク
PDF
サイエンス領域におけるMLOpsの取り組み #yjtc
by
Yahoo!デベロッパーネットワーク
PDF
LakeTahoe
by
Yahoo!デベロッパーネットワーク
PDF
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
by
Yahoo!デベロッパーネットワーク
PDF
「新しいおうち探し」のためのAIアシスト検索 #yjtc
by
Yahoo!デベロッパーネットワーク
PDF
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
by
Yahoo!デベロッパーネットワーク
PDF
Persistent-memory-native Database High-availability Feature
by
Yahoo!デベロッパーネットワーク
PDF
モブデザインによる多職種チームのコミュニケーション改善 #yjtc
by
Yahoo!デベロッパーネットワーク
PDF
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
by
Yahoo!デベロッパーネットワーク
PDF
ビッグデータから人々のムードを捉える #yjtc
by
Yahoo!デベロッパーネットワーク
PDF
eコマースと実店舗の相互利益を目指したデザイン #yjtc
by
Yahoo!デベロッパーネットワーク
PDF
オンプレML基盤on Kubernetes パネルディスカッション
by
Yahoo!デベロッパーネットワーク
PDF
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
by
Yahoo!デベロッパーネットワーク
PDF
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
by
Yahoo!デベロッパーネットワーク
継続的なモデルモニタリングを実現するKubernetes Operator
by
Yahoo!デベロッパーネットワーク
ゼロから始める転移学習
by
Yahoo!デベロッパーネットワーク
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
by
Yahoo!デベロッパーネットワーク
ヤフーでは開発迅速性と品質のバランスをどう取ってるか
by
Yahoo!デベロッパーネットワーク
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
by
Yahoo!デベロッパーネットワーク
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
by
Yahoo!デベロッパーネットワーク
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
by
Yahoo!デベロッパーネットワーク
サイエンス領域におけるMLOpsの取り組み #yjtc
by
Yahoo!デベロッパーネットワーク
LakeTahoe
by
Yahoo!デベロッパーネットワーク
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
by
Yahoo!デベロッパーネットワーク
「新しいおうち探し」のためのAIアシスト検索 #yjtc
by
Yahoo!デベロッパーネットワーク
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
by
Yahoo!デベロッパーネットワーク
Persistent-memory-native Database High-availability Feature
by
Yahoo!デベロッパーネットワーク
モブデザインによる多職種チームのコミュニケーション改善 #yjtc
by
Yahoo!デベロッパーネットワーク
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
by
Yahoo!デベロッパーネットワーク
ビッグデータから人々のムードを捉える #yjtc
by
Yahoo!デベロッパーネットワーク
eコマースと実店舗の相互利益を目指したデザイン #yjtc
by
Yahoo!デベロッパーネットワーク
オンプレML基盤on Kubernetes パネルディスカッション
by
Yahoo!デベロッパーネットワーク
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
by
Yahoo!デベロッパーネットワーク
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
by
Yahoo!デベロッパーネットワーク
データ利活用を促進するメタデータ
1.
ヤフー株式会社 データ&サイエンスソリューション統括本部 エリア関西 尾崎
弘宗 データ利活用を促進するメ タデータ 2017年2月10日
2.
自己紹介 2 尾崎 弘宗 ヤフー株式会社 データ&サイエンスソリューション統括本部 D&Sエリア関西 経歴 〜2005年
某SIer会社(官公庁、金融系のデータベース設計、開発) 2005年〜 ヤフー株式会社入社(データベースプラットフォーム設計〜運用) 2014年〜 データ&サイエンスソリューション統括本部 (DMP、データマネージメント) 2016年〜 大阪オフィス勤務
3.
アジェンダ 3 ・ヤフーのビッグデータ ・メタデータ可視化の取り組み ・メタデータ分類 ・メタデータ収集 ・今後の課題 ・まとめ
4.
ヤフーのビッグデータ
5.
100種を超えるYahoo!サービス
6.
100以上のデータバラエティ
7.
670億ページビュー/月 8,900万/日ユニークブラウザ 670 億PV 膨大なデータボリューム
8.
約125TB at 1day
9.
約50,000アクセス in 1sec
10.
Variety Volume Velocity
11.
メタデータ可視化の 取り組み
12.
取り組み 12 メタデータを集約して 横断的にデータを探せる 「データカタログ」を作成中
13.
背景 13 どこにどんなデータがあるか 分からない データ利活用の妨げに ・他サービス、他部門がどんなデータを持っているか知らない ・データを探すのに時間がかかる
14.
目的 14 どこにどんなデータがあるか 分からない 分かる データ利活用を促進 ・他サービス、他部門がどんなデータを持っているか分かる ・データをすぐに探せる
15.
実現方法 15 バナナ バナナ 価格:98円 賞味期限:2017/3/10 生産者:矢風農場 販売店:スーパー矢風
16.
実現方法 16 データの意味や価値、所在地などの メタデータを可視化する バナナ バナナ 価格:98円 賞味期限:2017/3/10 生産者:矢風農場 販売店:スーパー矢風 安心
17.
データカタログ利用イメージ 17 ユーザーデータ データ提供者:数十人 (エンジニア) サービス Hadoop メディア系 コマース系 デ ー タ カ タ ロ グ RDB 共通API
可視化 ①メタデータ参照 ・データの種類・意味の検索 ・利活用のナレッジ共有 ・データ利用までナビゲーション データ利活用アイデア DWH 生データ 共通データ ファイナンス系 ②メタデータ登録 ・データ構造・意味管理 ・データ利用者、連絡先管理 データ利活用者:数千人 (企画・エンジニアetc.) KVS
18.
メタデータ分類
19.
データ基盤と規模 19 DWH 1.7PB RDB 1,000dbs KVS 2,000nodes Object Storage 1,500nodes Hadoop 6,000nodes
20.
データ構造 20 DWH 1.7PB RDB 1,000dbs KVS 2,000nodes Object Storage 1,500nodes 構造化データ 非構造化データ 構造化+非構造化+半構造化データHadoop 6,000nodes
21.
メタデータ数 21 DWH 1.7PB RDB 1,000dbs KVS 2,000nodes Object Storage 1,500nodes Hadoop 6,000nodes 推定 テーブル数:約23,000 カラム数:約320,000
22.
メタデータ分類 22 Layer1 テクニカルメタデータ データアクセスするために必要な情報 ・データ所在地 ・データ構造 Layer2 Layer3
23.
メタデータ分類 23 Layer1 テクニカルメタデータ データアクセスするために必要な情報 ・データ所在地 ・データ構造 Layer3 Layer2 ビジネスメタデータ データの意味を理解するために必要な情報 ・データ内容説明
24.
メタデータ分類 24 Layer1 テクニカルメタデータ データアクセスするために必要な情報 ・データ所在地 ・データ構造 Layer2 ビジネスメタデータ データの意味を理解するために必要な情報 ・データ内容説明 Layer3
マルチユースメタデータ データ取得目的とは別の用途、他部門で利用するために必要な情報 ※データの「価値」を可視化する必要がある ・活用knowledge ・品質情報 ・データ量 ・SLA ・活用条件 ・活用範囲 ・データの組み合わせによるセキュリティルール
25.
メタデータの課題 25 Layer1 テクニカルメタデータ データアクセスするために必要な情報 ・データ所在地 ・データ構造 Layer2 ビジネスメタデータ データの意味を理解するために必要な情報 ・データ内容説明 Layer3
マルチユースメタデータ データ取得目的とは別の用途、他部門で利用するために必要な情報 ※データの「価値」を可視化する必要がある ・活用knowledge ・品質情報 ・データ量 ・SLA ・活用条件 ・活用範囲 ・データの組み合わせによるセキュリティルール 課題 ・システム毎に点在している情報を どうやって収集すべきか(How) ・収集した情報をどうやって最新に保つのか(How) 課題 ・社内に点在しているドキュメントを どうやって収集すべきか(How) ・収集した情報をどうやって最新に保つのか(How) 課題 ・どんな情報を収集すべきか(What) ・どうやって情報を収集すべきか(How) ※出来るだけ機械的に収集したい。 ・どうやって見せるか(How)
26.
メタデータ収集
27.
テクニカルメタデータ収集方法 27 種類 説明 項目
保存先(現状) 収集方法 Layer3: マルチユースメタデータ データ取得目的とは別の 用途、他部門で利用する ために必要な情報 ・活用knowledge ・品質情報 ・データ量 ・SLA ・活用条件 ・活用範囲 基本存在しない。 (一部は社内Wiki) ・データ登録 UI ・登録API開発(自動) ※データ量など Layer2: ビジネスメタデータ データの意味を理解する ために必要な情報 ・データ内容説明 ・社内Wiki/Excel ・データモデリング ツール(様々) ・データ登録 UI ・Excel読み込み Layer1: テクニカルメタデータ データアクセスするため に必要な情報 ・データ所在地 ・データ構造 ・社内Wiki/Excel ・GitHub ・データモデリング ツール(様々) ・データベース/ データストア ・データ登録 UI ・Excel読み込み ・GitHub連携 (DDL読み込み) ・ETL/マネージメント ソフトウェア(自動)
28.
ビジネスメタデータ収集方法 28 種類 説明 項目
保存先(現状) 収集方法 Layer3: マルチユースメタデータ データ取得目的とは別の 用途、他部門で利用する ために必要な情報 ・活用knowledge ・品質情報 ・データ量 ・SLA ・活用条件 ・活用範囲 基本存在しない。 (一部は社内Wiki) ・データ登録 UI ・登録API開発(自動) ※データ量など Layer2: ビジネスメタデータ データの意味を理解する ために必要な情報 ・データ内容説明 ・社内Wiki/Excel ・データモデリング ツール(様々) ・データ登録 UI ・Excel読み込み Layer1: テクニカルメタデータ データアクセスするため に必要な情報 ・データ所在地 ・データ構造 ・社内Wiki/Excel ・GitHub ・データモデリング ツール(様々) ・データベース/ データストア ・データ登録 UI ・Excel読み込み ・GitHub連携 (DDL読み込み) ・ETL/マネージメント ソフトウェア(自動)
29.
マルチユースメタデータ収集方法 29 種類 説明 項目
保存先(現状) 収集方法 Layer3: マルチユースメタデータ データ取得目的とは別の 用途、他部門で利用する ために必要な情報 ・活用knowledge ・品質情報 ・データ量 ・SLA ・活用条件 ・活用範囲 基本存在しない。 (一部は社内Wiki) ・データ登録 UI ・登録API開発(自動) ※データ量など Layer2: ビジネスメタデータ データの意味を理解する ために必要な情報 ・データ内容説明 ・社内Wiki/Excel ・データモデリング ツール(様々) ・データ登録 UI ・Excel読み込み Layer1: テクニカルメタデータ データアクセスするため に必要な情報 ・データ所在地 ・データ構造 ・社内Wiki/Excel ・GitHub ・データモデリング ツール(様々) ・データベース/ データストア ・データ登録 UI ・Excel読み込み ・GitHub連携 (DDL読み込み) ・ETL/マネージメント ソフトウェア(自動)
30.
メタデータ登録コスト 30 種類 説明 項目
保存先(現状) 収集方法 Layer3: マルチユースメタデータ データ取得目的とは別の 用途、他部門で利用する ために必要な情報 ・活用knowledge ・品質情報 ・データ量 ・SLA ・活用条件 ・活用範囲 基本存在しない。 (一部は社内Wiki) ・データ登録 UI ・登録API開発(自動) ※データ量など Layer2: ビジネスメタデータ データの意味を理解する ために必要な情報 ・データ内容説明 ・社内Wiki/Excel ・データモデリング ツール(様々) ・データ登録 UI ・Excel読み込み Layer1: テクニカルメタデータ データアクセスするため に必要な情報 ・データ所在地 ・データ構造 ・社内Wiki/Excel ・GitHub ・データモデリング ツール(様々) ・データベース/ データストア ・データ登録 UI ・Excel読み込み ・GitHub連携 (DDL読み込み) ・ETL/マネージメント ソフトウェア(自動)小 大 コスト
31.
データ利活用までのコスト 31 種類 説明 項目
保存先(現状) 収集方法 Layer3: マルチユースメタデータ データ取得目的とは別の 用途、他部門で利用する ために必要な情報 ・活用knowledge ・品質情報 ・データ量 ・SLA ・活用条件 ・活用範囲 基本存在しない。 (一部は社内Wiki) ・データ登録 UI ・登録API開発 ※データ量など Layer2: ビジネスメタデータ データの意味を理解する ために必要な情報 ・データ内容説明 ・社内Wiki/Excel ・データモデリング ツール(様々) ・データ登録 UI ・Excel読み込み Layer1: テクニカルメタデータ データアクセスするため に必要な情報 ・データ所在地 ・データ構造 ・社内Wiki/Excel ・GitHub ・データモデリング ツール(様々) ・データベース/ データストア ・データ登録 UI ・Excel読み込み ・GitHub連携 (DDL読み込み) ・ETL/マネージメント ソフトウェア 小 大 コスト
32.
メタデータ登録コストパフォーマンス 32 マルチユース可能なデータ マルチユースが難しいデータ 全てのデータに対して 詳細なメタデータを登録するのは コストに見合わない
33.
メタデータ収集粒度 33 種類 項目 保存先(現 状) 収集方法 Layer3: マルチユース メタデータ ・活用knowledge ・品質情報 ・データ量 ・SLA ・活用条件 ・活用範囲 基本存在しない。 (一部は社内 Wiki) ・データ登録
UI ・登録API開発 ※データ量など Layer2: ビジネス メタデータ ・データ内容説明 ・社内Wiki/Excel ・データモデリン グツール(様々) ・データ登録 UI ・Excel読み込み Layer1: テクニカル メタデータ ・データ所在地 ・データ構造 ・社内Wiki/Excel ・GitHub ・データモデリン グツール(様々) ・データベース/ データストア ・データ登録 UI ・Excel読み込み ・GitHub連携 (DDL読み込み) ・ETL/マネージメントソフトウェア (Informatica,Alation) 対象データ マ ル チ ユ ー ス 可 能 な デ ー タ 分 析 用 共 通 デ ー タ サ ー ビ ス 固 有 デ ー タ 登 録 コ ス ト 活 用 ま で の コ ス ト プライオリティー 高 低 大 小 小 大
34.
メタデータ収集全体図 34 メタデータ リポジトリDB Hadoop DWH RDB KVS データ説明、構造情報 UI/ UI IF データカタログ 参照UI Hadoop DWH
RDB KVS データの状態情報 Hadoop <ファイルサイズ/レコード数etc> API DWH RDB KVS UI <品質情報> Hadoop DWH RDB KVS 機械学習 <データ構造> <データ名、データ内容説明、値説明etc> データ利活用情報 メタデータ検索、参照 <キーワード検索、タグ検索、各種情報参照etc> UI/ UI/ <利用サービス、Knowledge、タグetc> <インテリジェエンス機能> (クラスタリング、自動タグ付け) =検討中 ETLツールなど ETLツールなど ETLツールなど 社内 Wiki 社内 Wiki
35.
今後の課題
36.
課題1 36 魅力的なコンテンツ (活用できるデータ)を揃える
37.
課題2 37 メタデータ登録のモチベーション
38.
まとめ
39.
本日のまとめ 39 ・メタデータ可視化の目的を定める ・目的を達成するのに必要なメタデータを定める ・データ毎に適切な粒度でメタデータを登録する
40.
40 END
Download