SlideShare a Scribd company logo
1 of 41
© 2020 NTT DATA Corporation
Spark + AI Summit 2020セッションのハイライト
~セッション傾向、ピックアップして易しく紹介~
2020/7/31
NTTデータ 土橋
Spark Meetup Tokyo #3 Online
自己紹介
土橋 昌(どばし まさる)
エグゼクティブITスペシャリスト・課長
NTTデータ インテグレーション技術センタ / OSSプロフェッショナルサービス
• 専門分野は、オープンソースソフトウェア活用、
データ活用基盤、分散処理
• Hadoop、Spark、Kafkaなどのデータ活用・分散処理基盤に
関する研究開発、システム開発を主導
経歴
登壇
・
出版
など
• 技術カンファレンス Strata Data Conference, Spark Summit,
Kafka Summit, Hadoop/Spark Conference Japan,
USENIX OpML 等 多数登壇・採録
• 翔泳社 『Apache Spark入門』、 『Apache Kafka 分散メッセージン
グシステムの構築と活用』 など執筆・監修
© 2020 NTT DATA
Corporation
3
アジェンダ
1. セッション全体の印象
– 目立つキーワード、トラックの概況
2. セッションのピックアップ紹介
– 目についたセッションをいくつか概要紹介
© 2020 NTT DATA Corporation
セッション全体の印象
© 2020 NTT DATA Corporation 5
概要
• URL
• https://databricks.com/jp/sparkaisu
mmit/north-america-2020
• ワードクラウドからの特徴
• スケーラビリティ、機械学習関連(AI、
深層学習含む)のキーワードが目立っ
た。合わせて、ML Opsを想起するもの
(パイプライン、モデル等)も見られる。
• プロダクトカットMLflow、Delta Lakeが
目立つ。そのほかKubernetes、
Apache Arrow、Prestoあたりが載って
いる。
Spark、Data、等をストップワード指定してワードクラウド化
© 2020 NTT DATA Corporation 6
トラックとトピック
• AI Use Cases
• Data & ML Industry Use Cases
• Data and ML Research
• Data Engineering and Architecture
• Data Science, Deep Learning and
Machine Learning
• Developer
• Follow Along Training
• Impact and Innovation
• Open Source Data and ML Tools
• Special Events
• Vertical Events
• Keynote
• Analytics
• Apache Spark Use Cases
• Architecture
• Databricks Tech Talks
• Deep Learning
• Hands on tutorials
• Machine Learning
• Python
• Sponsored Sessions
• Technical Deep Dives
• Technical vs Non-Technical
• Techniques
トラック トピック
※トピックはあまり使われていなかった?
© 2020 NTT DATA Corporation 7
トラックとトピック
• AI Use Cases
• Data & ML Industry Use Cases
• Data and ML Research
• Data Engineering and Architecture
• Data Science, Deep Learning and
Machine Learning
• Developer
• Follow Along Training
• Impact and Innovation
• Open Source Data and ML Tools
• Special Events
• Vertical Events
• Keynote
• Analytics
• Apache Spark Use Cases
• Architecture
• Databricks Tech Talks
• Deep Learning
• Hands on tutorials
• Machine Learning
• Python
• Sponsored Sessions
• Technical Deep Dives
• Technical vs Non-Technical
• Techniques
分析や機械学習に関連
したトラックが多い
トラック トピック
※トピックはあまり使われていなかった?
© 2020 NTT DATA Corporation 8
セッションを眺めた所感
• Sparkのエコシステムを題材とした発表が多数
• Spark、Koalas、Delta Lake、MLflow、etc
• ノウハウを紹介する発表も多数
• MLflow使ってパイプラインを構成するには…、Delta Lakeを使ってレイクハウスを構成す
るには、etc
• 事例ベースの発表も見られる
• U.S. Citizenship and Immigration、Thermo Fisher、CapitalOne、etc
© 2020 NTT DATA Corporation
セッションのピックアップ紹介
© 2020 NTT DATA Corporation 10
今回紹介するセッション
• Lessons Learned from Modernizing USCIS Data Analytics Platform
• Shawn Benjamin, U.S. Citizenship and Immigration | Prabha Rajendran, U.S.
Citizenship and Immigration
• Simplify CDC Pipeline With Spark Streaming SQL And Delta Lake
• Jun Song, Alibaba
© 2020 NTT DATA
Corporation
11
Lessons Learned from
Modernizing USCIS Data
Analytics Platform
Spark + AI Summit 2020
• Shawn Benjamin, U.S. Citizenship and
Immigration | Prabha Rajendran, U.S.
Citizenship and Immigration
© 2020 NTT DATA Corporation 12
引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020)
講演概要
• USの公共系のユースケース → U.S. Citizenship and Immigration
• データソース → DWH → BIツールの構成から、Sparkを活用した基盤に移行
• Delta Lakeをデータレイク(レイクハウス)とした、CDCを実現
• BI部分はダッシュボードベースのアーキテクチャ(Tableau、SASなど)
• 機械学習も利用。例:予約したが現れない人の予測
• H2Oと組み合わせて時系列データ分析(回帰分析など)
© 2020 NTT DATA Corporation 13
引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020)
UCISのアーキテクチャ変遷
データソースから単純に読み込み、
DWH上データをBIツールで分析
分析環境のユーザ、デ
ータは拡大の一途だっ
た
© 2020 NTT DATA Corporation 14
引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020)
既存のアーキテクチャを維持しつつSparkを導入
data ingestionの改
善
Spark導入
単純にS3に置くのではなく、レイク
ハウス化
この辺はあまり変わらない。この辺はあまり変わらない。
© 2020 NTT DATA Corporation 15
引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020)
データとユーザの拡大(2354人→6233人)
2354人(2016)
→6233人(2020)
およそ2.6倍
パブリッククラウドのオブジェクトストレージ上のデータ種類も増大
© 2020 NTT DATA Corporation 16
引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020)
データ挿入:Delta Lakeを利用したCDC
オブジェクトストレージ上のDelta Lakeに
データを書き込み、データ活用関連の技
術と連係させる
主な利点
• データ挿入・CDC
• 弾力性
• データ品質、可用性、
性能
• スキーマエボリューション
© 2020 NTT DATA Corporation 17
引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020)
データ活用:BIツール(これはもともと利用していたようだ)
© 2020 NTT DATA Corporation 18
引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020)
データ活用:機械学習の利用
• 例:予約をしたが訪れなかった人の分析。なぜ訪れなかったのか、など。
Python、R、Spark
等を利用してモデル
開発
© 2020 NTT DATA Corporation 19
引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020)
データ活用:テキスト分析
• 例:センチメンタル分析。調査結果の分析。
S3上に置かれたデー
タをSpark等を使って
分析
© 2020 NTT DATA Corporation 20
引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020)
データ活用:H2Oと組み合わせ時系列データ分析
トラディショナルな時系列データ分析手法を用いて
予測し、日々の計画・運用を実施
© 2020 NTT DATA Corporation 21
引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020)
成功の秘訣
気軽にストレージにデータを置いて
利用したいのだが、そのときの
スケーラビリティは使い勝手に直結する
多くのケースで「データ取り込み」は
課題になりがち。パイプラインの途中で
モダンな技術に流し込めるかどうか?
© 2020 NTT DATA
Corporation
Simplify CDC Pipeline With
Spark Streaming SQL And
Delta Lake
Spark + AI Summit 2020
22
© 2020 NTT DATA Corporation 23
引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020)
講演概要
• データソースからのデータ吸出し
• Debezium等を利用してKafkaにbinlogの内容を転送。そこからSpark Streaming
SQL(独自開発?)で変換してDelta Lakeに書き込み
• Delta Lake利用時のポイント
• 安定した性能のためには、Compactionが必要になるが、バックグラウンドでの
Compaction実行時にファイル削除で衝突が発生した。
• insertのみのケースについてはFixされた。delete / update時は、該当するミニバッチ処理
の再起動が必要
• ミニバッチごとに自動でCompactionする方式も提案
© 2020 NTT DATA Corporation 24
引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020)
AlibabaにおけるCDCのアーキテクチャ概要
データソース 蓄積・加工 活用
© 2020 NTT DATA Corporation 25
引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020)
データ取り込みの一例:Sqoop → 辛くてやめた様子
• データソースに負荷
• バッチジョブのレイテンシが大きい
• 削除に非対応
• スキーマ変更に非対応
© 2020 NTT DATA Corporation 26
引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020)
データ取り込みの一例:binlog使う方法 → 単純な置き換えではまだ辛かった様子
debeziumな
ど
• 各種サーバの運用が大変…
• HBaseは高スループットでの分析が苦手
• マージ処理を実装すると複雑
• スキーマ変更に非対応
→ どちらかというと書き込み先の課題が残った
© 2020 NTT DATA Corporation 27
引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020)
Spark Streaming SQLを開発中
Structured Streaming の上に成り立つ仕組みとのこ
と
© 2020 NTT DATA Corporation 28
引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020)
Spark Streaming SQL の例:Kafkaから読み込んでテーブル定義する例
Kafkaから読み込む例
© 2020 NTT DATA Corporation 30
引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020)
Spark Streaming SQLとDelta Lakeの組み合わせ
© 2020 NTT DATA Corporation 31
引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020)
(参考)Delta Lake?
• ファイルシステムやストレージ上に、データを「上手に置く」ことで様々な特徴を付
与する仕組み
Delta Lake ~データレイクにデータ分析向けの特長を添えて~
https://www.nttdata.com/jp/ja/data-insight/2020/0716/
分析に便利な機能を提
供したり、安全に保存した
り、ストリームでデータを取
り込んだり…
© 2020 NTT DATA Corporation 32
引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020)
Spark Streaming SQLとDelta Lakeの組み合わせ
• 前のスライドで挙げていた辛いところの裏返し
© 2020 NTT DATA Corporation 33
引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020)
最終的なアーキテクチャイメージ、データ抽出の流れ
Debezium等でbinlogを
読み出しKafkaに入れ
る
Spark
Streaming SQL
でDelta Lakeの
マージ機能を利
用して更新する
© 2020 NTT DATA Corporation 34
引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020)
ミニバッチごとにマージする
© 2020 NTT DATA Corporation 35
引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020)
小さなデータを書き込むので課題が生じる
データをまとめこむ処理
© 2020 NTT DATA Corporation 36
引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020)
初期のアプローチ:数時間ごと等でCompactionを走らせる
時折Compactionを走らせて
おく
© 2020 NTT DATA Corporation 37
引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020)
ストリーム書き込みとCompactionの課題の例
例:ファイル削除がコンフリクト →ストリーム処理が例外
で落ちる
(補足)事象の推測
• コンパクションはいくつかのファイルをまとめて
書き出し、Delta Lakeのメタデータを
更新して新しいファイルを見るようにする。
• 別のトランザクションが走行中にコンパクションが
行われると、「変更(更新・削除)しようとした
ファイルが既に削除されている」ということが起こりえる。
(その場合は例外が生じる)
© 2020 NTT DATA Corporation 38
引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020)
バッチの間でCompactionする方式
小さなバッチ処理の合間で必要に応じてコンパク
ションを実行
© 2020 NTT DATA Corporation 39
引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020)
Future work
© 2020 NTT DATA Corporation
まとめ
© 2020 NTT DATA Corporation 41
引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020)
おわりに
• Spark + AI Summit 2020はセッション数が多く、事例やノウハウを伝えるものも
多い。
• コンテンツとしては、データ分析、機械学習に関連するものが多い。(必ずしもSparkだけ
に限らない)
• データレイクを補強する技術(Delta Lake等)、ML Ops関連の技術(MLflow等)
の話も多い
• 事例ベースの2セッションを簡単に紹介
• Lessons Learned from Modernizing USCIS Data Analytics Platform
• Shawn Benjamin, U.S. Citizenship and Immigration | Prabha Rajendran, U.S. Citizenship
and Immigration
• Simplify CDC Pipeline With Spark Streaming SQL And Delta Lake
• Jun Song, Alibaba
© 2020 NTT DATA Corporation
• 本スライドに記載されている会社名、システム名、製品名は一般に各社の登録商標、または商標です。
• 本スライドに記載の内容は必ずしも当社の統一見解を示すものではありません。

More Related Content

What's hot

Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力NTT DATA OSS Professional Services
 
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...NTT DATA Technology & Innovation
 
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...NTT DATA Technology & Innovation
 
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
COVID-19によるリモートワークIT環境強化の裏側 ~NTTデータにおける同時接続数拡大との戦い~(NTTデータ テクノロジーカンファレンス 2020...
COVID-19によるリモートワークIT環境強化の裏側 ~NTTデータにおける同時接続数拡大との戦い~(NTTデータ テクノロジーカンファレンス 2020...COVID-19によるリモートワークIT環境強化の裏側 ~NTTデータにおける同時接続数拡大との戦い~(NTTデータ テクノロジーカンファレンス 2020...
COVID-19によるリモートワークIT環境強化の裏側 ~NTTデータにおける同時接続数拡大との戦い~(NTTデータ テクノロジーカンファレンス 2020...NTT DATA Technology & Innovation
 
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理NTT DATA Technology & Innovation
 
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...NTT DATA Technology & Innovation
 
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)NTT DATA Technology & Innovation
 
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...NTT DATA Technology & Innovation
 
大量時空間データの処理 ~ 現状の課題と今後OSSが解決すべきこと。(Open Source Conference 2021 Online/Osaka講演資料)
大量時空間データの処理 ~ 現状の課題と今後OSSが解決すべきこと。(Open Source Conference 2021 Online/Osaka講演資料)大量時空間データの処理 ~ 現状の課題と今後OSSが解決すべきこと。(Open Source Conference 2021 Online/Osaka講演資料)
大量時空間データの処理 ~ 現状の課題と今後OSSが解決すべきこと。(Open Source Conference 2021 Online/Osaka講演資料)NTT DATA Technology & Innovation
 
PostgreSQLの統計情報について(第26回PostgreSQLアンカンファレンス@オンライン 発表資料)
PostgreSQLの統計情報について(第26回PostgreSQLアンカンファレンス@オンライン 発表資料)PostgreSQLの統計情報について(第26回PostgreSQLアンカンファレンス@オンライン 発表資料)
PostgreSQLの統計情報について(第26回PostgreSQLアンカンファレンス@オンライン 発表資料)NTT DATA Technology & Innovation
 
Hadoop Compatible File Systems 2019 (db tech showcase 2019 Tokyo講演資料、2019/09/25)
Hadoop Compatible File Systems 2019 (db tech showcase 2019 Tokyo講演資料、2019/09/25)Hadoop Compatible File Systems 2019 (db tech showcase 2019 Tokyo講演資料、2019/09/25)
Hadoop Compatible File Systems 2019 (db tech showcase 2019 Tokyo講演資料、2019/09/25)NTT DATA Technology & Innovation
 
平成最後の1月ですし、Databricksでもやってみましょうか
平成最後の1月ですし、Databricksでもやってみましょうか平成最後の1月ですし、Databricksでもやってみましょうか
平成最後の1月ですし、DatabricksでもやってみましょうかRyuichi Tokugami
 
まだプログラム手で書いて消耗してるの?~入出力例からプログラムを自動生成する技術~(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
まだプログラム手で書いて消耗してるの?~入出力例からプログラムを自動生成する技術~(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...まだプログラム手で書いて消耗してるの?~入出力例からプログラムを自動生成する技術~(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
まだプログラム手で書いて消耗してるの?~入出力例からプログラムを自動生成する技術~(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...NTT DATA Technology & Innovation
 
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-Makoto SHIMURA
 

What's hot (20)

Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力
 
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
 
Big Data Architecture 全体概要
Big Data Architecture 全体概要Big Data Architecture 全体概要
Big Data Architecture 全体概要
 
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
 
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
COVID-19によるリモートワークIT環境強化の裏側 ~NTTデータにおける同時接続数拡大との戦い~(NTTデータ テクノロジーカンファレンス 2020...
COVID-19によるリモートワークIT環境強化の裏側 ~NTTデータにおける同時接続数拡大との戦い~(NTTデータ テクノロジーカンファレンス 2020...COVID-19によるリモートワークIT環境強化の裏側 ~NTTデータにおける同時接続数拡大との戦い~(NTTデータ テクノロジーカンファレンス 2020...
COVID-19によるリモートワークIT環境強化の裏側 ~NTTデータにおける同時接続数拡大との戦い~(NTTデータ テクノロジーカンファレンス 2020...
 
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
 
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
 
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
 
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...
 
Apache spark 2.3 and beyond
Apache spark 2.3 and beyondApache spark 2.3 and beyond
Apache spark 2.3 and beyond
 
Apache Spark 2.4 and 3.0 What's Next?
Apache Spark 2.4 and 3.0  What's Next? Apache Spark 2.4 and 3.0  What's Next?
Apache Spark 2.4 and 3.0 What's Next?
 
大量時空間データの処理 ~ 現状の課題と今後OSSが解決すべきこと。(Open Source Conference 2021 Online/Osaka講演資料)
大量時空間データの処理 ~ 現状の課題と今後OSSが解決すべきこと。(Open Source Conference 2021 Online/Osaka講演資料)大量時空間データの処理 ~ 現状の課題と今後OSSが解決すべきこと。(Open Source Conference 2021 Online/Osaka講演資料)
大量時空間データの処理 ~ 現状の課題と今後OSSが解決すべきこと。(Open Source Conference 2021 Online/Osaka講演資料)
 
PostgreSQLの統計情報について(第26回PostgreSQLアンカンファレンス@オンライン 発表資料)
PostgreSQLの統計情報について(第26回PostgreSQLアンカンファレンス@オンライン 発表資料)PostgreSQLの統計情報について(第26回PostgreSQLアンカンファレンス@オンライン 発表資料)
PostgreSQLの統計情報について(第26回PostgreSQLアンカンファレンス@オンライン 発表資料)
 
Hadoop Compatible File Systems 2019 (db tech showcase 2019 Tokyo講演資料、2019/09/25)
Hadoop Compatible File Systems 2019 (db tech showcase 2019 Tokyo講演資料、2019/09/25)Hadoop Compatible File Systems 2019 (db tech showcase 2019 Tokyo講演資料、2019/09/25)
Hadoop Compatible File Systems 2019 (db tech showcase 2019 Tokyo講演資料、2019/09/25)
 
Spark SQL - The internal -
Spark SQL - The internal -Spark SQL - The internal -
Spark SQL - The internal -
 
平成最後の1月ですし、Databricksでもやってみましょうか
平成最後の1月ですし、Databricksでもやってみましょうか平成最後の1月ですし、Databricksでもやってみましょうか
平成最後の1月ですし、Databricksでもやってみましょうか
 
まだプログラム手で書いて消耗してるの?~入出力例からプログラムを自動生成する技術~(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
まだプログラム手で書いて消耗してるの?~入出力例からプログラムを自動生成する技術~(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...まだプログラム手で書いて消耗してるの?~入出力例からプログラムを自動生成する技術~(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
まだプログラム手で書いて消耗してるの?~入出力例からプログラムを自動生成する技術~(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
 
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
 

Similar to Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)

MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdataMLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdataNTT DATA Technology & Innovation
 
MS-Office 製品からのkintoneデータ活用
MS-Office 製品からのkintoneデータ活用MS-Office 製品からのkintoneデータ活用
MS-Office 製品からのkintoneデータ活用CData Software Japan
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)NTT DATA OSS Professional Services
 
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~NTT DATA OSS Professional Services
 
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏Daisuke Ikeda
 
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...NTT DATA Technology & Innovation
 
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data PlatformNaoki (Neo) SATO
 
IoT時代を迎えて、あなたのシステムは今までのDBで充分ですか?~ GridDBとその適用事例紹介 ~
IoT時代を迎えて、あなたのシステムは今までのDBで充分ですか?~ GridDBとその適用事例紹介 ~ IoT時代を迎えて、あなたのシステムは今までのDBで充分ですか?~ GridDBとその適用事例紹介 ~
IoT時代を迎えて、あなたのシステムは今までのDBで充分ですか?~ GridDBとその適用事例紹介 ~ griddb
 
NTT Communications' Initiatives to Utilize Infrastructure Data
NTT Communications' Initiatives to Utilize Infrastructure DataNTT Communications' Initiatives to Utilize Infrastructure Data
NTT Communications' Initiatives to Utilize Infrastructure DataDataWorks Summit
 
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-LINE Corp.
 
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)日本マイクロソフト株式会社
 
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...オラクルエンジニア通信
 
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~NTT DATA OSS Professional Services
 
マルチクラウドDWH(Snowflake)のすすめ
マルチクラウドDWH(Snowflake)のすすめマルチクラウドDWH(Snowflake)のすすめ
マルチクラウドDWH(Snowflake)のすすめYuuta Hishinuma
 
多対多のクラウド利用を支えるデータ標準化技術
多対多のクラウド利用を支えるデータ標準化技術 多対多のクラウド利用を支えるデータ標準化技術
多対多のクラウド利用を支えるデータ標準化技術 CData Software Japan
 
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...Atsushi Tsuchiya
 

Similar to Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料) (20)

20180319 ccon sync kintone
20180319 ccon sync kintone20180319 ccon sync kintone
20180319 ccon sync kintone
 
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdataMLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
 
MS-Office 製品からのkintoneデータ活用
MS-Office 製品からのkintoneデータ活用MS-Office 製品からのkintoneデータ活用
MS-Office 製品からのkintoneデータ活用
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
 
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
 
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏
OSC 2020 Fukuoka IT運用自動化を支援する「運用レコメンドプラットフォーム」実現の舞台裏
 
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
 
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform
 
IoT時代を迎えて、あなたのシステムは今までのDBで充分ですか?~ GridDBとその適用事例紹介 ~
IoT時代を迎えて、あなたのシステムは今までのDBで充分ですか?~ GridDBとその適用事例紹介 ~ IoT時代を迎えて、あなたのシステムは今までのDBで充分ですか?~ GridDBとその適用事例紹介 ~
IoT時代を迎えて、あなたのシステムは今までのDBで充分ですか?~ GridDBとその適用事例紹介 ~
 
NTT Communications' Initiatives to Utilize Infrastructure Data
NTT Communications' Initiatives to Utilize Infrastructure DataNTT Communications' Initiatives to Utilize Infrastructure Data
NTT Communications' Initiatives to Utilize Infrastructure Data
 
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
 
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
 
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
 
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
Delta lakesummary
Delta lakesummaryDelta lakesummary
Delta lakesummary
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
 
マルチクラウドDWH(Snowflake)のすすめ
マルチクラウドDWH(Snowflake)のすすめマルチクラウドDWH(Snowflake)のすすめ
マルチクラウドDWH(Snowflake)のすすめ
 
多対多のクラウド利用を支えるデータ標準化技術
多対多のクラウド利用を支えるデータ標準化技術 多対多のクラウド利用を支えるデータ標準化技術
多対多のクラウド利用を支えるデータ標準化技術
 
CData Drivers HandsOn 20180326
CData Drivers HandsOn 20180326CData Drivers HandsOn 20180326
CData Drivers HandsOn 20180326
 
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
 

More from NTT DATA Technology & Innovation

NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)
OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)
OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)NTT DATA Technology & Innovation
 
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)NTT DATA Technology & Innovation
 
Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方
Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方
Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方NTT DATA Technology & Innovation
 
Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...
Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...
Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...NTT DATA Technology & Innovation
 
Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)
Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)
Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)NTT DATA Technology & Innovation
 
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)NTT DATA Technology & Innovation
 
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...NTT DATA Technology & Innovation
 
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
 
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
 
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
 
最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)
最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)
最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)NTT DATA Technology & Innovation
 
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...NTT DATA Technology & Innovation
 
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)NTT DATA Technology & Innovation
 
機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)
機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)
機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)NTT DATA Technology & Innovation
 
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)NTT DATA Technology & Innovation
 
PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...
PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...
PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...NTT DATA Technology & Innovation
 
オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)
オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)
オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)NTT DATA Technology & Innovation
 
Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)
Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)
Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)NTT DATA Technology & Innovation
 
ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)NTT DATA Technology & Innovation
 

More from NTT DATA Technology & Innovation (20)

NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)
OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)
OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)
 
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)
 
Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方
Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方
Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方
 
Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...
Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...
Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...
 
Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)
Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)
Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)
 
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
 
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
 
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
 
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
 
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
 
最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)
最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)
最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)
 
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...
 
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)
 
機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)
機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)
機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)
 
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
 
PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...
PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...
PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...
 
オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)
オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)
オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)
 
Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)
Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)
Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)
 
ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
 

Recently uploaded

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成Hiroshi Tomioka
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 

Recently uploaded (9)

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 

Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)

  • 1. © 2020 NTT DATA Corporation Spark + AI Summit 2020セッションのハイライト ~セッション傾向、ピックアップして易しく紹介~ 2020/7/31 NTTデータ 土橋 Spark Meetup Tokyo #3 Online
  • 2. 自己紹介 土橋 昌(どばし まさる) エグゼクティブITスペシャリスト・課長 NTTデータ インテグレーション技術センタ / OSSプロフェッショナルサービス • 専門分野は、オープンソースソフトウェア活用、 データ活用基盤、分散処理 • Hadoop、Spark、Kafkaなどのデータ活用・分散処理基盤に 関する研究開発、システム開発を主導 経歴 登壇 ・ 出版 など • 技術カンファレンス Strata Data Conference, Spark Summit, Kafka Summit, Hadoop/Spark Conference Japan, USENIX OpML 等 多数登壇・採録 • 翔泳社 『Apache Spark入門』、 『Apache Kafka 分散メッセージン グシステムの構築と活用』 など執筆・監修
  • 3. © 2020 NTT DATA Corporation 3 アジェンダ 1. セッション全体の印象 – 目立つキーワード、トラックの概況 2. セッションのピックアップ紹介 – 目についたセッションをいくつか概要紹介
  • 4. © 2020 NTT DATA Corporation セッション全体の印象
  • 5. © 2020 NTT DATA Corporation 5 概要 • URL • https://databricks.com/jp/sparkaisu mmit/north-america-2020 • ワードクラウドからの特徴 • スケーラビリティ、機械学習関連(AI、 深層学習含む)のキーワードが目立っ た。合わせて、ML Opsを想起するもの (パイプライン、モデル等)も見られる。 • プロダクトカットMLflow、Delta Lakeが 目立つ。そのほかKubernetes、 Apache Arrow、Prestoあたりが載って いる。 Spark、Data、等をストップワード指定してワードクラウド化
  • 6. © 2020 NTT DATA Corporation 6 トラックとトピック • AI Use Cases • Data & ML Industry Use Cases • Data and ML Research • Data Engineering and Architecture • Data Science, Deep Learning and Machine Learning • Developer • Follow Along Training • Impact and Innovation • Open Source Data and ML Tools • Special Events • Vertical Events • Keynote • Analytics • Apache Spark Use Cases • Architecture • Databricks Tech Talks • Deep Learning • Hands on tutorials • Machine Learning • Python • Sponsored Sessions • Technical Deep Dives • Technical vs Non-Technical • Techniques トラック トピック ※トピックはあまり使われていなかった?
  • 7. © 2020 NTT DATA Corporation 7 トラックとトピック • AI Use Cases • Data & ML Industry Use Cases • Data and ML Research • Data Engineering and Architecture • Data Science, Deep Learning and Machine Learning • Developer • Follow Along Training • Impact and Innovation • Open Source Data and ML Tools • Special Events • Vertical Events • Keynote • Analytics • Apache Spark Use Cases • Architecture • Databricks Tech Talks • Deep Learning • Hands on tutorials • Machine Learning • Python • Sponsored Sessions • Technical Deep Dives • Technical vs Non-Technical • Techniques 分析や機械学習に関連 したトラックが多い トラック トピック ※トピックはあまり使われていなかった?
  • 8. © 2020 NTT DATA Corporation 8 セッションを眺めた所感 • Sparkのエコシステムを題材とした発表が多数 • Spark、Koalas、Delta Lake、MLflow、etc • ノウハウを紹介する発表も多数 • MLflow使ってパイプラインを構成するには…、Delta Lakeを使ってレイクハウスを構成す るには、etc • 事例ベースの発表も見られる • U.S. Citizenship and Immigration、Thermo Fisher、CapitalOne、etc
  • 9. © 2020 NTT DATA Corporation セッションのピックアップ紹介
  • 10. © 2020 NTT DATA Corporation 10 今回紹介するセッション • Lessons Learned from Modernizing USCIS Data Analytics Platform • Shawn Benjamin, U.S. Citizenship and Immigration | Prabha Rajendran, U.S. Citizenship and Immigration • Simplify CDC Pipeline With Spark Streaming SQL And Delta Lake • Jun Song, Alibaba
  • 11. © 2020 NTT DATA Corporation 11 Lessons Learned from Modernizing USCIS Data Analytics Platform Spark + AI Summit 2020 • Shawn Benjamin, U.S. Citizenship and Immigration | Prabha Rajendran, U.S. Citizenship and Immigration
  • 12. © 2020 NTT DATA Corporation 12 引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020) 講演概要 • USの公共系のユースケース → U.S. Citizenship and Immigration • データソース → DWH → BIツールの構成から、Sparkを活用した基盤に移行 • Delta Lakeをデータレイク(レイクハウス)とした、CDCを実現 • BI部分はダッシュボードベースのアーキテクチャ(Tableau、SASなど) • 機械学習も利用。例:予約したが現れない人の予測 • H2Oと組み合わせて時系列データ分析(回帰分析など)
  • 13. © 2020 NTT DATA Corporation 13 引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020) UCISのアーキテクチャ変遷 データソースから単純に読み込み、 DWH上データをBIツールで分析 分析環境のユーザ、デ ータは拡大の一途だっ た
  • 14. © 2020 NTT DATA Corporation 14 引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020) 既存のアーキテクチャを維持しつつSparkを導入 data ingestionの改 善 Spark導入 単純にS3に置くのではなく、レイク ハウス化 この辺はあまり変わらない。この辺はあまり変わらない。
  • 15. © 2020 NTT DATA Corporation 15 引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020) データとユーザの拡大(2354人→6233人) 2354人(2016) →6233人(2020) およそ2.6倍 パブリッククラウドのオブジェクトストレージ上のデータ種類も増大
  • 16. © 2020 NTT DATA Corporation 16 引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020) データ挿入:Delta Lakeを利用したCDC オブジェクトストレージ上のDelta Lakeに データを書き込み、データ活用関連の技 術と連係させる 主な利点 • データ挿入・CDC • 弾力性 • データ品質、可用性、 性能 • スキーマエボリューション
  • 17. © 2020 NTT DATA Corporation 17 引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020) データ活用:BIツール(これはもともと利用していたようだ)
  • 18. © 2020 NTT DATA Corporation 18 引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020) データ活用:機械学習の利用 • 例:予約をしたが訪れなかった人の分析。なぜ訪れなかったのか、など。 Python、R、Spark 等を利用してモデル 開発
  • 19. © 2020 NTT DATA Corporation 19 引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020) データ活用:テキスト分析 • 例:センチメンタル分析。調査結果の分析。 S3上に置かれたデー タをSpark等を使って 分析
  • 20. © 2020 NTT DATA Corporation 20 引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020) データ活用:H2Oと組み合わせ時系列データ分析 トラディショナルな時系列データ分析手法を用いて 予測し、日々の計画・運用を実施
  • 21. © 2020 NTT DATA Corporation 21 引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020) 成功の秘訣 気軽にストレージにデータを置いて 利用したいのだが、そのときの スケーラビリティは使い勝手に直結する 多くのケースで「データ取り込み」は 課題になりがち。パイプラインの途中で モダンな技術に流し込めるかどうか?
  • 22. © 2020 NTT DATA Corporation Simplify CDC Pipeline With Spark Streaming SQL And Delta Lake Spark + AI Summit 2020 22
  • 23. © 2020 NTT DATA Corporation 23 引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020) 講演概要 • データソースからのデータ吸出し • Debezium等を利用してKafkaにbinlogの内容を転送。そこからSpark Streaming SQL(独自開発?)で変換してDelta Lakeに書き込み • Delta Lake利用時のポイント • 安定した性能のためには、Compactionが必要になるが、バックグラウンドでの Compaction実行時にファイル削除で衝突が発生した。 • insertのみのケースについてはFixされた。delete / update時は、該当するミニバッチ処理 の再起動が必要 • ミニバッチごとに自動でCompactionする方式も提案
  • 24. © 2020 NTT DATA Corporation 24 引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020) AlibabaにおけるCDCのアーキテクチャ概要 データソース 蓄積・加工 活用
  • 25. © 2020 NTT DATA Corporation 25 引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020) データ取り込みの一例:Sqoop → 辛くてやめた様子 • データソースに負荷 • バッチジョブのレイテンシが大きい • 削除に非対応 • スキーマ変更に非対応
  • 26. © 2020 NTT DATA Corporation 26 引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020) データ取り込みの一例:binlog使う方法 → 単純な置き換えではまだ辛かった様子 debeziumな ど • 各種サーバの運用が大変… • HBaseは高スループットでの分析が苦手 • マージ処理を実装すると複雑 • スキーマ変更に非対応 → どちらかというと書き込み先の課題が残った
  • 27. © 2020 NTT DATA Corporation 27 引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020) Spark Streaming SQLを開発中 Structured Streaming の上に成り立つ仕組みとのこ と
  • 28. © 2020 NTT DATA Corporation 28 引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020) Spark Streaming SQL の例:Kafkaから読み込んでテーブル定義する例 Kafkaから読み込む例
  • 29. © 2020 NTT DATA Corporation 30 引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020) Spark Streaming SQLとDelta Lakeの組み合わせ
  • 30. © 2020 NTT DATA Corporation 31 引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020) (参考)Delta Lake? • ファイルシステムやストレージ上に、データを「上手に置く」ことで様々な特徴を付 与する仕組み Delta Lake ~データレイクにデータ分析向けの特長を添えて~ https://www.nttdata.com/jp/ja/data-insight/2020/0716/ 分析に便利な機能を提 供したり、安全に保存した り、ストリームでデータを取 り込んだり…
  • 31. © 2020 NTT DATA Corporation 32 引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020) Spark Streaming SQLとDelta Lakeの組み合わせ • 前のスライドで挙げていた辛いところの裏返し
  • 32. © 2020 NTT DATA Corporation 33 引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020) 最終的なアーキテクチャイメージ、データ抽出の流れ Debezium等でbinlogを 読み出しKafkaに入れ る Spark Streaming SQL でDelta Lakeの マージ機能を利 用して更新する
  • 33. © 2020 NTT DATA Corporation 34 引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020) ミニバッチごとにマージする
  • 34. © 2020 NTT DATA Corporation 35 引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020) 小さなデータを書き込むので課題が生じる データをまとめこむ処理
  • 35. © 2020 NTT DATA Corporation 36 引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020) 初期のアプローチ:数時間ごと等でCompactionを走らせる 時折Compactionを走らせて おく
  • 36. © 2020 NTT DATA Corporation 37 引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020) ストリーム書き込みとCompactionの課題の例 例:ファイル削除がコンフリクト →ストリーム処理が例外 で落ちる (補足)事象の推測 • コンパクションはいくつかのファイルをまとめて 書き出し、Delta Lakeのメタデータを 更新して新しいファイルを見るようにする。 • 別のトランザクションが走行中にコンパクションが 行われると、「変更(更新・削除)しようとした ファイルが既に削除されている」ということが起こりえる。 (その場合は例外が生じる)
  • 37. © 2020 NTT DATA Corporation 38 引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020) バッチの間でCompactionする方式 小さなバッチ処理の合間で必要に応じてコンパク ションを実行
  • 38. © 2020 NTT DATA Corporation 39 引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020) Future work
  • 39. © 2020 NTT DATA Corporation まとめ
  • 40. © 2020 NTT DATA Corporation 41 引用:Spark + AI Summit 2020(https://databricks.com/jp/sparkaisummit/north-america-2020) おわりに • Spark + AI Summit 2020はセッション数が多く、事例やノウハウを伝えるものも 多い。 • コンテンツとしては、データ分析、機械学習に関連するものが多い。(必ずしもSparkだけ に限らない) • データレイクを補強する技術(Delta Lake等)、ML Ops関連の技術(MLflow等) の話も多い • 事例ベースの2セッションを簡単に紹介 • Lessons Learned from Modernizing USCIS Data Analytics Platform • Shawn Benjamin, U.S. Citizenship and Immigration | Prabha Rajendran, U.S. Citizenship and Immigration • Simplify CDC Pipeline With Spark Streaming SQL And Delta Lake • Jun Song, Alibaba
  • 41. © 2020 NTT DATA Corporation • 本スライドに記載されている会社名、システム名、製品名は一般に各社の登録商標、または商標です。 • 本スライドに記載の内容は必ずしも当社の統一見解を示すものではありません。