© 2020 NTT DATA Corporation
NTTデータ テクノロジーカンファレンス 2020
NTTデータが考えるデータ基盤の次の一手
~AI活用のために知っておくべき新潮流とは?~
2020年10月14日
株式会社NTTデータ エグゼクティブITスペシャリスト 土橋 昌
2
© 2020 NTT DATA Corporation
自己紹介
 専門分野は、オープンソースソフトウェア活用、データ活用基盤、
分散処理
 Hadoop、Spark、Kafkaなどのデータ活用・分散処理基盤に
関する研究開発、システム開発を主導
経歴
 技術カンファレンス Strata Data Conference, Spark Summit,
Kafka Summit, Hadoop/Spark Conference Japan,
USENIX OpML 等 多 数 登 壇・採録
 翔泳社 『Apache Spark入門』、
『Apache Kafka 分散メッセージングシステムの構築と活 用』 など 執筆・監修
登壇
・
出版
など
土橋 昌
(どばし まさる)
エグゼクティブ I T スペシャリスト
NTTデータ インテグレーション技術/OSSプロフェッショナルサービス
© 2020 NTT DATA Corporation
AIや機械学習とデータ基盤
3
4
© 2020 NTT DATA Corporation
なぜデータ基盤に着目するか?
参考)「機械学習工学に向けて」機械学習型システム開発へのパラダイム転換(2017),丸山 宏
「 機械学習とデータ駆動システム &ソフトウェアエンジニアリング 」ESS2018招待講演, 鷲崎弘宜
目標 データ
モデル アクション
機械学習等では、
モデル・アルゴリズムを
データから決定する
5
© 2020 NTT DATA Corporation
NTTデータの考えるAI適正利用においても基盤は重
要
別講演「信頼できるAI活用を支えるNTTデータの理念と技術」
(NTTデータ冨安)から引用
6
© 2020 NTT DATA Corporation
ビッグデータ関連の市場は堅調
国内BDAテクノロジー/サービス市場支出額
現場感覚で見ても将来に向けた取り組みのために、
改めてデータ活用・活用基盤を見直す話が多い
Source:『20200526_JPJ45144420_国内BDAテクノロシ
゙ー/サービス市場予測、2020年~2024年(May2020,
IDC #JPJ45144420)』
Note:本市場予測は、2020年3月末時点における新型コロナ
ウイルス感染症(COVID-19)の影響および見通しを考慮し
たものである
© 2020 NTT DATA Corporation 7
【質問】
データ活用に際し、ご自身の組織はITインフラスキルに
自信がありますか?
(選択肢)
A. 自組織には専門家不在で困っている
B. 一部専門家がいるが不安がある
C. 専門家集団なのでスキルに問題ない
D. 専門知識を使って他者を支援する組織である
不安
自信あり
8
© 2020 NTT DATA Corporation
データを活用したサービスや改善が着実に登場してい
る
• 危険外来種植物検知
• コンテンツ配信サービス
ケース
チャレンジ
データの種類
9
© 2020 NTT DATA Corporation
■実現したいことの流れ
■汎用的な並列分散処理基盤と機械学習基盤で実現
公共:危険外来種植物の検知
ドローンで撮影した画像から危険外来種植物を見つけ、社会課題解決を目指
す
• 機械学習を利用し、大量の画像の
中から危険外植物を見つける
• 専門家でないと判別の難しい植物
を見つける
• 全地域を対象とすると膨大な量の
画像データを取り扱うことになる
• ドローンから撮影した土地の画像
• 上記に対して専門家がラベルを付
けた画像 “A Distributed Machine Learning For Giant Hogweed Eradication”, 2019 USENIX Conference on Operational Machine Learning (OpML
‘19)“Deep learning technologies for giant hogweed eradication”, Strata Data Conference 2019 - New York
危険外来種植物
たくさんの土地の画像
ドローによる撮影
当社事例
ケース
チャレンジ
データの種類
10
© 2020 NTT DATA Corporation
コンテンツ配信サービスNetflixの公開事例
膨大なコンテンツコレクションから顧客ひとりひとりに向けてパーソナライズす
る
• 大量に集められたデータと機械学
習を利用したパーソナライゼー
ション
• データ量が膨大。総量10PB級。1億
件/日を処理
• リアルタイムとヒストリカルの両
データを扱うが、データ品質管理
が難しい
• メンバデータ
• ビデオデータ
引用:Spark + AI Summit 2020 “An Approach to Data Quality for Netflix Personalization Systems”,
https://databricks.com/jp/session_na20/an-approach-to-data-quality-for-netflix-personalization-systems
オンラインパイプライン
オフラインパイプライン
機械学習の活用
■パーソナライズ基盤の全体
像
■品質管理のためのモニタリング
ヒストリカルデータ
のデータ分析
11
© 2020 NTT DATA Corporation
実際の現場では基本的な課題が根強く存在?
「データ分析における企業の課題トップ3は、人材/スキ
ル、データ品質、ITインフラスキルである。」
Q. データ分析を行う上で、現在どのような課題を持っていますか?(複数回答)
Source: 『20200728_JPJ45144220_2020年国内ビッグテータ/アナリ
ティクス市場企業ユーザー調査(IDC#JPJ45144220,July 2020)』
データを扱い、
活かすために、
適切に
ITインフラを
使いこなしたい
© 2020 NTT DATA Corporation 12
【回答】
データ活用に際し、ご自身の組織はITインフラスキルに
自信がありますか?
(選択肢)
A. 自組織には専門家不在で困っている
B. 一部専門家がいるが不安がある
C. 専門家集団なのでスキルに問題ない
D. 専門知識を使って他者を支援する組織である
不安
自信あり
© 2020 NTT DATA Corporation 13
意外と悩ましいビッグデータ活用基盤
14
© 2020 NTT DATA Corporation
昔と比べて選択肢が増えてよくなった?
ひと昔は、Hadoopが世を席巻
15
© 2020 NTT DATA Corporation
昔と比べて選択肢が増えてよくなった?
ひと昔は、Hadoopが世を席巻
要件の高度化 手段の多様化
16
© 2020 NTT DATA Corporation
人は考慮すべきものと選択肢が多すぎると決められな
い
17
© 2020 NTT DATA Corporation
そこで抽象化して考える⇒入力・処理・蓄積・活用
本質的にはデータレイクを中心に入力と出力をつなげる
だけ。しかし現実には要件と手段が多様すぎて単純化困
難
Collect.
Data Lake
Data Transfer
Tf
Visualization
/Analysis/BI
Portal/Search
(Management)
Visualization
Streaming
Processing
AI/ML
(Modeling)
ETL
File
Transporting
API
Bulk Loader
Data Hub
DWH
Trans-
forming
Data
Mart
データ
マート
Data
Mart
Data
Mart
AI/ML
(Inference)
Tf
To API
Notification
/Alert
Accumu-
lation
Transforming Utilization
Data
Source
Batch
Stream
Cooperation/Analysis
Data
Ops
System
Cooperation
Reporting
Interactive
Data Search
Real-time
Analysis
Flexible Data
Processing
Platform
Usability Scalability
18
© 2020 NTT DATA Corporation
NTTデータはリファレンスとして知見を集約して活
用
過去の知見を集約。例えば医療やユーティリティ※のような安心・安全
が求められる領域におけるシステムグランドデザインや検討で参照され
ている
※レスター大学PoC・グランドデザイン、電力データ活用・分析の実現検討等多数のプロジェクトで利用
19
© 2020 NTT DATA Corporation
ポイント1:オープンソースソフトウェアを生かす
には?
データ活用基盤を実現するうえでOSS由来の技術は欠かせないものとなってい
る。OSSは1点突破の圧倒的な特徴を備えたものが多く特性を考慮して使いた
い
プロダクトBの
カバー範囲/
得意分野
プロダクトAの
カバー範囲/得意分野
実案件の
要件範囲
各プロダクトの
特長を組み合わせて
要件を満たすように
デザインする
プロダクトCの
カバー範囲/
得意分野
20
© 2020 NTT DATA Corporation
ポイント2:プロダクトの特性を的確にとらえるに
は?
プロダクト誕生には「どうしても突破しなくてはならなかった課題」
=秘話がある。「はじまり」をひも解き、変遷を理解することで特性が
分かる
論文化されて
いることもある
現実の特性は
実装に依存する
成長とともにコア
以外の要素が
充実する
21
© 2020 NTT DATA Corporation
ポイント3:的確に素早くグランドデザインするに
は?
経験的なベストプラクティスを体系化して育てる。
体系化されたリファレンスモデルをアレンジしてブートス
トラップ
ベースのアーキテクチャ体系 ベースの検討観点 エンジニアリング
© 2020 NTT DATA Corporation
データレイクの新潮流
24
© 2020 NTT DATA Corporation
ビッグデータ活用基盤リファレンスアーキテクチャ(デフォルメ版)
データレイク
処
理
エ
ン
ジ
ン
活
用
入力
デ
ー
タ
ハ
ブ
メ
ッ
セ
ー
ジ
ン
グ
ストリーム処理
エンジン
入力
データ基盤では「データレイク」が活用の起点
Single Source of Truth
※ここではデータレイク≒永続用のストレージとする
25
© 2020 NTT DATA Corporation
ビッグデータ活用基盤リファレンスアーキテクチャ(デフォルメ版)
データレイク
処
理
エ
ン
ジ
ン
活
用
入力
デ
ー
タ
ハ
ブ
メ
ッ
セ
ー
ジ
ン
グ
ストリーム処理
エンジン
入力
現在のデータレイクの課題感の例
データを永続的に扱うデータレイクを起点としたとき、軸①
「データの取り回し」、軸②「活用のしやすさ」の2軸から課
題を定義できる
軸①データの取り回し
軸②活用のしやすさ
ストリームデータと合わせて
扱おうとするとアーキテクチャ
が複雑になる
分析や機械学習向けには、
シンプル過ぎ。作りこみが
煩雑になる。
軸①データの取り回し 軸②活用のしやすさ
26
© 2020 NTT DATA Corporation
ビッグデータ活用基盤リファレンスアーキテクチャ(デフォルメ版)
データレイク
処
理
エ
ン
ジ
ン
活
用
入力
デ
ー
タ
ハ
ブ
メ
ッ
セ
ー
ジ
ン
グ
ストリーム処理
エンジン
入力
現在のデータレイクの課題感の例
データを永続的に扱うデータレイクを起点としたとき、軸①
「データの取り回し」、軸②「活用のしやすさ」の2軸から課
題を定義できる
軸①データの取り回し
ストリームデータと合わせて
扱おうとするとアーキテクチャ
が複雑になる
軸①データの取り回し
27
© 2020 NTT DATA Corporation
軸①データの取り回し:まずは基本のバッチ処理
Single Source of Truthとしてのデータレイクを中心に、
その中のデータを活用するための処理エンジンを並べる
データレイク
処
理
エ
ン
ジ
ン
活
用
入力
シンプル!
28
© 2020 NTT DATA Corporation
軸①データの取り回し:ストリームデータの流れを加
える
データレイクの横に、ニアリアルタイムでデータ処理するパイプライン
を構成
データレイク
処
理
エ
ン
ジ
ン
活
用
バッチ
入力
デ
ー
タ
ハ
ブ
メ
ッ
セ
ー
ジ
ン
グ
ストリーム処理
エンジン
ストリーム
入力
いわゆるラムダアーキテクチャで、かなりゴチャゴチャ・・・
途中や末端でのバッチと
ストリームの統合が難し
い
29
© 2020 NTT DATA Corporation
軸①データの取り回し:そこでデータレイクを高
度化
データレイク上でストリームデータを統合し、分析用途にも
扱いやすくできたら…?という一石を投じる技術が登場
ストレージ部分で統合
通知
(ストリーム)
加工
分析・機械学習・AI活用
収集
収集 メッセージング/加工
多様なクエリエンジンを利用
分析・
可視化
高度化された
データレイク
Delta Lake
Hudi
Iceberg
ストリーム
バッチ
30
© 2020 NTT DATA Corporation
ビッグデータ活用基盤リファレンスアーキテクチャ(デフォルメ版)
データレイク
処
理
エ
ン
ジ
ン
活
用
入力
デ
ー
タ
ハ
ブ
メ
ッ
セ
ー
ジ
ン
グ
ストリーム処理
エンジン
入力
現在のデータレイクの課題感の例
データを永続的に扱うデータレイクを起点としたとき、軸①
「データの取り回し」、軸②「活用のしやすさ」の2軸から課
題を定義できる
軸②活用のしやすさ
分析や機械学習向けには、
シンプル過ぎ。作りこみが
煩雑になる。
軸②活用のしやすさ
31
© 2020 NTT DATA Corporation
軸②活用のしやすさ:データレイクへの期待は高
度化
最初は「大きなデータをリーズナブルに保存・処理する」だけでも効果
的と言われたが、次第に高度で複雑なユースケースにも利用される
ように…
もっと
高度な分析手法
も使いたい
大量の
データを分析
したい
大量の
データを処理
したい
7
8
<
>
×
∞ ∋
32
© 2020 NTT DATA Corporation
軸②活用のしやすさ:基盤に影響のある要件具体例
引用:「Data Platform for Machine Learning」Putlit Agrawal等、SIGMOD '19:
Proceedings of the 2019 International Conference on Management of DataJune
2019 Pages 1803–1816https://doi.org/10.1145/3299869.3314050
• ユースケースに合わせて多様に
加工したい
• ユースケースごとに異なる部分を
使いたい
• 多数のステークホルダで
同じデータを使いたい
• 結果をフィードバックし、再処理したい
• 過去のデータを使って再現したい
身近な要件例
身近な要件例
Apple社の論文から引用した機械学習におけるデータパイプライン
33
© 2020 NTT DATA Corporation
軸②活用のしやすさ:データ品質管理の例
• 引用:Spark + AI Summit 2020 “An Approach to Data Quality for Netflix Personalization Systems”,
https://databricks.com/jp/session_na20/an-approach-to-data-quality-for-netflix-personalization-systems
• データを集計し、統計化することで
特徴を明確化する(異常検知な
ど)
• データをただ保存するだけではなく、
データを継続的に使いやすい状態
で蓄積、加工してくには…?
身近な要件例
Netflix社のプレゼンから引用したデータ品質管理におけるデータパイプライン
34
© 2020 NTT DATA Corporation
軸②活用のしやすさ:
データマイグレーション時にも安全にデータを取り回した
い
• 複数のレーンで加工し、バリデート
することで安全性を高める
• 引用:Spark + AI Summit 2020 “An Approach to Data Quality for Netflix Personalization Systems”,
https://databricks.com/jp/session_na20/an-approach-to-data-quality-for-netflix-personalization-systems
• 断続的に絶えず入力が行われる
状況下で、複数のデータパイプラ
インで安全にデータを取りまわすに
は?
身近な要件例
Netflix社のプレゼンから引用したデータ加工におけるデータパイプライン
35
© 2020 NTT DATA Corporation
軸②活用のしやすさ:データレイクに向けられる期待を体
系化
様々なプロジェクトでスケーラブルであることは前提となっ
ている。特に多様性、柔軟性、安心を支える特徴が求められ
ている
データ操作、処理 データ操作の補助 非機能
多様なデータ 多様なライブラリ、
入出力手法
多様なストレージの活用
再現性、説明可能性担保
コラボレーション
品質管理
特徴把握
スケーラビリティ
可用性
運用保守性
移行性
セキュリティ
OK
※機械学習固有の要件を含む数十の参考文献ほか、当社過去案件情報から体系化。約100要素をカテゴライズしたもの。
36
© 2020 NTT DATA Corporation
軸①+②:データレイク高度化のアプローチ種類
「データを扱う処理エンジン」と「データを溜めるスト
レージ」というパーツに注目すると、3種類のアプローチ
がある
処理エンジン側を工夫
ストレージをうまく使う技術を追加して工夫
ストレージ側を工夫
37
© 2020 NTT DATA Corporation
軸①+②:データレイク高度化のアプローチ種類
「データを扱う処理エンジン」と「データを溜めるスト
レージ」というパーツに注目すると、3種類のアプローチ
がある
処理エンジン側を工夫
ストレージをうまく使う技術を追加して工夫
ストレージ側を工夫
38
© 2020 NTT DATA Corporation
軸①+②:ストレージをうまく使う技術の一例
ストレージ
( 分 散 フ ァ イ ル シ ス テ ム 、 オブジェクトストレージ 等 )
ストレージレイヤソフトウェア
アプリケーション、処理ライブラリ
論理的なデータセットやテーブル
便利な特徴を提供 読み書き
素朴な機能を提供 データの実体や管理情報を読み書き
論理的なデータセットやテーブルに読
み書きすることで、便利な機能を使い
つつ透過的にストレージに読み書き
下回りにスケーラブルな
基盤を利用可能
39
© 2020 NTT DATA Corporation
ストレージレイヤソフトウェアの一例
いずれもデータレイクのスケーラビリティを生かしなが
ら、データフォーマットの工夫で新しい特徴を提供する
仕組み
分析用データセットの
スケーラブルな
テーブルフォーマット
(Apache Iceberg) (Apache Hudi) (Delta Lake)
ストレージにおける
ストリームデータの
扱いを改善する仕組み
ストレージにトランザ
クション管理の機能を
提供する仕組み
40
© 2020 NTT DATA Corporation
別セッションで個別の技術に踏み込んだ説明をし
ます
2種類についてそれぞれアーキテクチャ、実装、実際の動
作を踏まえて、実態に迫って解説します
■10/16 13:30
「分析指向データレイク実現の次の一手
~Delta Lake、なにそれおいしいの?」
■10/16 13:45
「ポスト・ラムダアーキテクチャの切り札? Apache Hudi」
41
© 2020 NTT DATA Corporation
本講演のまとめ
• AIや機械学習の活用においても、
データの取り回しが鬼門
• データ基盤を体系化してリファレンスとして活用
• データレイクへの期待が多様化。データレイクの進化は、例
えば軸①:データの取り回し、軸②:活用のしやすさ、と
いう2軸で考えられる
• 注目したいOSSも登場
© 2020 NTT DATA Corporation
記 載 さ れ て い る 会 社 名 、 商 品 名 、 サ ー ビ ス 名 は
各 社 の 登 録 商 標 ま た は 商 標 で す

NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)

  • 1.
    © 2020 NTTDATA Corporation NTTデータ テクノロジーカンファレンス 2020 NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~ 2020年10月14日 株式会社NTTデータ エグゼクティブITスペシャリスト 土橋 昌
  • 2.
    2 © 2020 NTTDATA Corporation 自己紹介  専門分野は、オープンソースソフトウェア活用、データ活用基盤、 分散処理  Hadoop、Spark、Kafkaなどのデータ活用・分散処理基盤に 関する研究開発、システム開発を主導 経歴  技術カンファレンス Strata Data Conference, Spark Summit, Kafka Summit, Hadoop/Spark Conference Japan, USENIX OpML 等 多 数 登 壇・採録  翔泳社 『Apache Spark入門』、 『Apache Kafka 分散メッセージングシステムの構築と活 用』 など 執筆・監修 登壇 ・ 出版 など 土橋 昌 (どばし まさる) エグゼクティブ I T スペシャリスト NTTデータ インテグレーション技術/OSSプロフェッショナルサービス
  • 3.
    © 2020 NTTDATA Corporation AIや機械学習とデータ基盤 3
  • 4.
    4 © 2020 NTTDATA Corporation なぜデータ基盤に着目するか? 参考)「機械学習工学に向けて」機械学習型システム開発へのパラダイム転換(2017),丸山 宏 「 機械学習とデータ駆動システム &ソフトウェアエンジニアリング 」ESS2018招待講演, 鷲崎弘宜 目標 データ モデル アクション 機械学習等では、 モデル・アルゴリズムを データから決定する
  • 5.
    5 © 2020 NTTDATA Corporation NTTデータの考えるAI適正利用においても基盤は重 要 別講演「信頼できるAI活用を支えるNTTデータの理念と技術」 (NTTデータ冨安)から引用
  • 6.
    6 © 2020 NTTDATA Corporation ビッグデータ関連の市場は堅調 国内BDAテクノロジー/サービス市場支出額 現場感覚で見ても将来に向けた取り組みのために、 改めてデータ活用・活用基盤を見直す話が多い Source:『20200526_JPJ45144420_国内BDAテクノロシ ゙ー/サービス市場予測、2020年~2024年(May2020, IDC #JPJ45144420)』 Note:本市場予測は、2020年3月末時点における新型コロナ ウイルス感染症(COVID-19)の影響および見通しを考慮し たものである
  • 7.
    © 2020 NTTDATA Corporation 7 【質問】 データ活用に際し、ご自身の組織はITインフラスキルに 自信がありますか? (選択肢) A. 自組織には専門家不在で困っている B. 一部専門家がいるが不安がある C. 専門家集団なのでスキルに問題ない D. 専門知識を使って他者を支援する組織である 不安 自信あり
  • 8.
    8 © 2020 NTTDATA Corporation データを活用したサービスや改善が着実に登場してい る • 危険外来種植物検知 • コンテンツ配信サービス
  • 9.
    ケース チャレンジ データの種類 9 © 2020 NTTDATA Corporation ■実現したいことの流れ ■汎用的な並列分散処理基盤と機械学習基盤で実現 公共:危険外来種植物の検知 ドローンで撮影した画像から危険外来種植物を見つけ、社会課題解決を目指 す • 機械学習を利用し、大量の画像の 中から危険外植物を見つける • 専門家でないと判別の難しい植物 を見つける • 全地域を対象とすると膨大な量の 画像データを取り扱うことになる • ドローンから撮影した土地の画像 • 上記に対して専門家がラベルを付 けた画像 “A Distributed Machine Learning For Giant Hogweed Eradication”, 2019 USENIX Conference on Operational Machine Learning (OpML ‘19)“Deep learning technologies for giant hogweed eradication”, Strata Data Conference 2019 - New York 危険外来種植物 たくさんの土地の画像 ドローによる撮影 当社事例
  • 10.
    ケース チャレンジ データの種類 10 © 2020 NTTDATA Corporation コンテンツ配信サービスNetflixの公開事例 膨大なコンテンツコレクションから顧客ひとりひとりに向けてパーソナライズす る • 大量に集められたデータと機械学 習を利用したパーソナライゼー ション • データ量が膨大。総量10PB級。1億 件/日を処理 • リアルタイムとヒストリカルの両 データを扱うが、データ品質管理 が難しい • メンバデータ • ビデオデータ 引用:Spark + AI Summit 2020 “An Approach to Data Quality for Netflix Personalization Systems”, https://databricks.com/jp/session_na20/an-approach-to-data-quality-for-netflix-personalization-systems オンラインパイプライン オフラインパイプライン 機械学習の活用 ■パーソナライズ基盤の全体 像 ■品質管理のためのモニタリング ヒストリカルデータ のデータ分析
  • 11.
    11 © 2020 NTTDATA Corporation 実際の現場では基本的な課題が根強く存在? 「データ分析における企業の課題トップ3は、人材/スキ ル、データ品質、ITインフラスキルである。」 Q. データ分析を行う上で、現在どのような課題を持っていますか?(複数回答) Source: 『20200728_JPJ45144220_2020年国内ビッグテータ/アナリ ティクス市場企業ユーザー調査(IDC#JPJ45144220,July 2020)』 データを扱い、 活かすために、 適切に ITインフラを 使いこなしたい
  • 12.
    © 2020 NTTDATA Corporation 12 【回答】 データ活用に際し、ご自身の組織はITインフラスキルに 自信がありますか? (選択肢) A. 自組織には専門家不在で困っている B. 一部専門家がいるが不安がある C. 専門家集団なのでスキルに問題ない D. 専門知識を使って他者を支援する組織である 不安 自信あり
  • 13.
    © 2020 NTTDATA Corporation 13 意外と悩ましいビッグデータ活用基盤
  • 14.
    14 © 2020 NTTDATA Corporation 昔と比べて選択肢が増えてよくなった? ひと昔は、Hadoopが世を席巻
  • 15.
    15 © 2020 NTTDATA Corporation 昔と比べて選択肢が増えてよくなった? ひと昔は、Hadoopが世を席巻 要件の高度化 手段の多様化
  • 16.
    16 © 2020 NTTDATA Corporation 人は考慮すべきものと選択肢が多すぎると決められな い
  • 17.
    17 © 2020 NTTDATA Corporation そこで抽象化して考える⇒入力・処理・蓄積・活用 本質的にはデータレイクを中心に入力と出力をつなげる だけ。しかし現実には要件と手段が多様すぎて単純化困 難 Collect. Data Lake Data Transfer Tf Visualization /Analysis/BI Portal/Search (Management) Visualization Streaming Processing AI/ML (Modeling) ETL File Transporting API Bulk Loader Data Hub DWH Trans- forming Data Mart データ マート Data Mart Data Mart AI/ML (Inference) Tf To API Notification /Alert Accumu- lation Transforming Utilization Data Source Batch Stream Cooperation/Analysis Data Ops System Cooperation Reporting Interactive Data Search Real-time Analysis Flexible Data Processing Platform Usability Scalability
  • 18.
    18 © 2020 NTTDATA Corporation NTTデータはリファレンスとして知見を集約して活 用 過去の知見を集約。例えば医療やユーティリティ※のような安心・安全 が求められる領域におけるシステムグランドデザインや検討で参照され ている ※レスター大学PoC・グランドデザイン、電力データ活用・分析の実現検討等多数のプロジェクトで利用
  • 19.
    19 © 2020 NTTDATA Corporation ポイント1:オープンソースソフトウェアを生かす には? データ活用基盤を実現するうえでOSS由来の技術は欠かせないものとなってい る。OSSは1点突破の圧倒的な特徴を備えたものが多く特性を考慮して使いた い プロダクトBの カバー範囲/ 得意分野 プロダクトAの カバー範囲/得意分野 実案件の 要件範囲 各プロダクトの 特長を組み合わせて 要件を満たすように デザインする プロダクトCの カバー範囲/ 得意分野
  • 20.
    20 © 2020 NTTDATA Corporation ポイント2:プロダクトの特性を的確にとらえるに は? プロダクト誕生には「どうしても突破しなくてはならなかった課題」 =秘話がある。「はじまり」をひも解き、変遷を理解することで特性が 分かる 論文化されて いることもある 現実の特性は 実装に依存する 成長とともにコア 以外の要素が 充実する
  • 21.
    21 © 2020 NTTDATA Corporation ポイント3:的確に素早くグランドデザインするに は? 経験的なベストプラクティスを体系化して育てる。 体系化されたリファレンスモデルをアレンジしてブートス トラップ ベースのアーキテクチャ体系 ベースの検討観点 エンジニアリング
  • 22.
    © 2020 NTTDATA Corporation データレイクの新潮流
  • 23.
    24 © 2020 NTTDATA Corporation ビッグデータ活用基盤リファレンスアーキテクチャ(デフォルメ版) データレイク 処 理 エ ン ジ ン 活 用 入力 デ ー タ ハ ブ メ ッ セ ー ジ ン グ ストリーム処理 エンジン 入力 データ基盤では「データレイク」が活用の起点 Single Source of Truth ※ここではデータレイク≒永続用のストレージとする
  • 24.
    25 © 2020 NTTDATA Corporation ビッグデータ活用基盤リファレンスアーキテクチャ(デフォルメ版) データレイク 処 理 エ ン ジ ン 活 用 入力 デ ー タ ハ ブ メ ッ セ ー ジ ン グ ストリーム処理 エンジン 入力 現在のデータレイクの課題感の例 データを永続的に扱うデータレイクを起点としたとき、軸① 「データの取り回し」、軸②「活用のしやすさ」の2軸から課 題を定義できる 軸①データの取り回し 軸②活用のしやすさ ストリームデータと合わせて 扱おうとするとアーキテクチャ が複雑になる 分析や機械学習向けには、 シンプル過ぎ。作りこみが 煩雑になる。 軸①データの取り回し 軸②活用のしやすさ
  • 25.
    26 © 2020 NTTDATA Corporation ビッグデータ活用基盤リファレンスアーキテクチャ(デフォルメ版) データレイク 処 理 エ ン ジ ン 活 用 入力 デ ー タ ハ ブ メ ッ セ ー ジ ン グ ストリーム処理 エンジン 入力 現在のデータレイクの課題感の例 データを永続的に扱うデータレイクを起点としたとき、軸① 「データの取り回し」、軸②「活用のしやすさ」の2軸から課 題を定義できる 軸①データの取り回し ストリームデータと合わせて 扱おうとするとアーキテクチャ が複雑になる 軸①データの取り回し
  • 26.
    27 © 2020 NTTDATA Corporation 軸①データの取り回し:まずは基本のバッチ処理 Single Source of Truthとしてのデータレイクを中心に、 その中のデータを活用するための処理エンジンを並べる データレイク 処 理 エ ン ジ ン 活 用 入力 シンプル!
  • 27.
    28 © 2020 NTTDATA Corporation 軸①データの取り回し:ストリームデータの流れを加 える データレイクの横に、ニアリアルタイムでデータ処理するパイプライン を構成 データレイク 処 理 エ ン ジ ン 活 用 バッチ 入力 デ ー タ ハ ブ メ ッ セ ー ジ ン グ ストリーム処理 エンジン ストリーム 入力 いわゆるラムダアーキテクチャで、かなりゴチャゴチャ・・・ 途中や末端でのバッチと ストリームの統合が難し い
  • 28.
    29 © 2020 NTTDATA Corporation 軸①データの取り回し:そこでデータレイクを高 度化 データレイク上でストリームデータを統合し、分析用途にも 扱いやすくできたら…?という一石を投じる技術が登場 ストレージ部分で統合 通知 (ストリーム) 加工 分析・機械学習・AI活用 収集 収集 メッセージング/加工 多様なクエリエンジンを利用 分析・ 可視化 高度化された データレイク Delta Lake Hudi Iceberg ストリーム バッチ
  • 29.
    30 © 2020 NTTDATA Corporation ビッグデータ活用基盤リファレンスアーキテクチャ(デフォルメ版) データレイク 処 理 エ ン ジ ン 活 用 入力 デ ー タ ハ ブ メ ッ セ ー ジ ン グ ストリーム処理 エンジン 入力 現在のデータレイクの課題感の例 データを永続的に扱うデータレイクを起点としたとき、軸① 「データの取り回し」、軸②「活用のしやすさ」の2軸から課 題を定義できる 軸②活用のしやすさ 分析や機械学習向けには、 シンプル過ぎ。作りこみが 煩雑になる。 軸②活用のしやすさ
  • 30.
    31 © 2020 NTTDATA Corporation 軸②活用のしやすさ:データレイクへの期待は高 度化 最初は「大きなデータをリーズナブルに保存・処理する」だけでも効果 的と言われたが、次第に高度で複雑なユースケースにも利用される ように… もっと 高度な分析手法 も使いたい 大量の データを分析 したい 大量の データを処理 したい 7 8 < > × ∞ ∋
  • 31.
    32 © 2020 NTTDATA Corporation 軸②活用のしやすさ:基盤に影響のある要件具体例 引用:「Data Platform for Machine Learning」Putlit Agrawal等、SIGMOD '19: Proceedings of the 2019 International Conference on Management of DataJune 2019 Pages 1803–1816https://doi.org/10.1145/3299869.3314050 • ユースケースに合わせて多様に 加工したい • ユースケースごとに異なる部分を 使いたい • 多数のステークホルダで 同じデータを使いたい • 結果をフィードバックし、再処理したい • 過去のデータを使って再現したい 身近な要件例 身近な要件例 Apple社の論文から引用した機械学習におけるデータパイプライン
  • 32.
    33 © 2020 NTTDATA Corporation 軸②活用のしやすさ:データ品質管理の例 • 引用:Spark + AI Summit 2020 “An Approach to Data Quality for Netflix Personalization Systems”, https://databricks.com/jp/session_na20/an-approach-to-data-quality-for-netflix-personalization-systems • データを集計し、統計化することで 特徴を明確化する(異常検知な ど) • データをただ保存するだけではなく、 データを継続的に使いやすい状態 で蓄積、加工してくには…? 身近な要件例 Netflix社のプレゼンから引用したデータ品質管理におけるデータパイプライン
  • 33.
    34 © 2020 NTTDATA Corporation 軸②活用のしやすさ: データマイグレーション時にも安全にデータを取り回した い • 複数のレーンで加工し、バリデート することで安全性を高める • 引用:Spark + AI Summit 2020 “An Approach to Data Quality for Netflix Personalization Systems”, https://databricks.com/jp/session_na20/an-approach-to-data-quality-for-netflix-personalization-systems • 断続的に絶えず入力が行われる 状況下で、複数のデータパイプラ インで安全にデータを取りまわすに は? 身近な要件例 Netflix社のプレゼンから引用したデータ加工におけるデータパイプライン
  • 34.
    35 © 2020 NTTDATA Corporation 軸②活用のしやすさ:データレイクに向けられる期待を体 系化 様々なプロジェクトでスケーラブルであることは前提となっ ている。特に多様性、柔軟性、安心を支える特徴が求められ ている データ操作、処理 データ操作の補助 非機能 多様なデータ 多様なライブラリ、 入出力手法 多様なストレージの活用 再現性、説明可能性担保 コラボレーション 品質管理 特徴把握 スケーラビリティ 可用性 運用保守性 移行性 セキュリティ OK ※機械学習固有の要件を含む数十の参考文献ほか、当社過去案件情報から体系化。約100要素をカテゴライズしたもの。
  • 35.
    36 © 2020 NTTDATA Corporation 軸①+②:データレイク高度化のアプローチ種類 「データを扱う処理エンジン」と「データを溜めるスト レージ」というパーツに注目すると、3種類のアプローチ がある 処理エンジン側を工夫 ストレージをうまく使う技術を追加して工夫 ストレージ側を工夫
  • 36.
    37 © 2020 NTTDATA Corporation 軸①+②:データレイク高度化のアプローチ種類 「データを扱う処理エンジン」と「データを溜めるスト レージ」というパーツに注目すると、3種類のアプローチ がある 処理エンジン側を工夫 ストレージをうまく使う技術を追加して工夫 ストレージ側を工夫
  • 37.
    38 © 2020 NTTDATA Corporation 軸①+②:ストレージをうまく使う技術の一例 ストレージ ( 分 散 フ ァ イ ル シ ス テ ム 、 オブジェクトストレージ 等 ) ストレージレイヤソフトウェア アプリケーション、処理ライブラリ 論理的なデータセットやテーブル 便利な特徴を提供 読み書き 素朴な機能を提供 データの実体や管理情報を読み書き 論理的なデータセットやテーブルに読 み書きすることで、便利な機能を使い つつ透過的にストレージに読み書き 下回りにスケーラブルな 基盤を利用可能
  • 38.
    39 © 2020 NTTDATA Corporation ストレージレイヤソフトウェアの一例 いずれもデータレイクのスケーラビリティを生かしなが ら、データフォーマットの工夫で新しい特徴を提供する 仕組み 分析用データセットの スケーラブルな テーブルフォーマット (Apache Iceberg) (Apache Hudi) (Delta Lake) ストレージにおける ストリームデータの 扱いを改善する仕組み ストレージにトランザ クション管理の機能を 提供する仕組み
  • 39.
    40 © 2020 NTTDATA Corporation 別セッションで個別の技術に踏み込んだ説明をし ます 2種類についてそれぞれアーキテクチャ、実装、実際の動 作を踏まえて、実態に迫って解説します ■10/16 13:30 「分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?」 ■10/16 13:45 「ポスト・ラムダアーキテクチャの切り札? Apache Hudi」
  • 40.
    41 © 2020 NTTDATA Corporation 本講演のまとめ • AIや機械学習の活用においても、 データの取り回しが鬼門 • データ基盤を体系化してリファレンスとして活用 • データレイクへの期待が多様化。データレイクの進化は、例 えば軸①:データの取り回し、軸②:活用のしやすさ、と いう2軸で考えられる • 注目したいOSSも登場
  • 41.
    © 2020 NTTDATA Corporation 記 載 さ れ て い る 会 社 名 、 商 品 名 、 サ ー ビ ス 名 は 各 社 の 登 録 商 標 ま た は 商 標 で す

Editor's Notes

  • #10 危険外来種植物など統一する★
  • #11 NTC2020時に引用OKの旨%
  • #12 NTC2020時に引用OKの旨受領済み
  • #18 実際のところ、ここまで単純化するのに苦労する。 単一の解というわけではなく、さまざまなバリエーションや亜種が存在する。
  • #36 機能・仕様一覧 https://nttdseh.box.com/s/xkfanl4kh9pfvssex4euu6z44j6x47yr
  • #37 様々な処理エンジンで使える方法を提供(多くの処理エンジンが対応しているプロトコルを通じて透過的に特徴を提供すれば、幅広い処理エンジンに同時に対応できる) パブリッククラウドのストレージ、すでにデファクトスタンダードのHDFSなど、いじりづらい技術に変更を加えるより現実的。また既存のスケーラブルなストレージの特長をそのまま利用可能。
  • #47 Innovation Conference2020時に引用OKの旨受領済み