SlideShare a Scribd company logo
1 of 38
1
© 2017 NTT DATA Corporation
NTTデータ OSSプロフェッショナルサービス
猿田 浩輔
2017/10/30 NTTデータ テクノロジーカンファレンス2017
Structured Streaming
- The Internal -
2
• 猿田 浩輔
• Apache Sparkコミッタ
• Timeline View作者
• Hadoop/SparkなどOSS並列分散処理系のテクニカルサ
ポートに従事
$ whoami
3
The Basic
4
• Apache Sparkの新しいストリーム処理系
• Spark SQLの上に構築される
• Spark 2.0で試験的に導入され、2.2でα版を卒業
• Spark Streamingには無かったセマンティクスをサポート
• イベントタイムウィンドウ集約
• 遅れて到着したデータのハンドリング
• End-to-End Exactly Once
Structured Streaming
5
データ処理モデル
https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html
ストリームデータをDataFrameの
レコードとして扱う
マイクロバッチを定期的に起動し、
DataFrameに対してクエリを発行する
結果を出力する
DataFrameに対する数10ms - 数100msで完了するマイクロバッチを
連続的に実行することでストリーム処理を実現する
6
• 実行プランの作成
• ステートフル集約処理
• イベントタイムウィンドウ集約処理
• ウォーターマーク
このセッションのスコープ
7
The Internal
実行プランの作成
8
ユーザがDSLを用いて記述したデータ操作の内容に応じて、
背後では論理プランが作られる
実行プランの作られ方(DSLから論理プランの生成)
Aggregate
Filter
Project
Scan Scan
述語: signal > 10
射影リスト: devie, signal
グループキー: device
集約関数: countval agged = deviceDF1
.union(deviceDF2)
.select("device", "signal")
.where("signal > 10")
.groupBy("device")
.agg(count())
Union
9
ユーザがDSLを用いて記述したデータ操作の内容に応じて、
背後では論理プランが作られる
実行プランの作られ方(DSLから論理プランの生成)
• プランツリーの各ノードはDataFrame
の各レコードに適用するオペレータ
を表す。
• 論理プランでは、各オペレータは具
体的にデータをどのように処理する
かは定義しない。適用するオペレー
タの順序や各オペレータが出力する
レコードのスキーマ等を定義する
Aggregate
Filter
Project
Scan Scan
述語: signal > 10
射影リスト: devie, signal
グループキー: device
集約関数: count
Union
10
マイクロバッチごとに制御エンジンが論理プランを修正する
• 新規データが到着していないデータソースのスキャンを省く
• マイクロバッチごとに変化する属性値の更新など
実行プランの作られ方(論理プランの修正)
Aggregate
Filter
Project
Scan Scan
Union
Aggregate
Filter
Project
Scan Scan
Union
11
ワークフローに沿って論理プランから物理プランが作られる
実行プランの作られ方(意味解析/物理プランの生成/最終化)
意味解析
最適化
物理プラン作成
物理プラン最終化
属性やDataFrameなどの参照解決
型チェック
追加の意味づけ
物理的な条件に依らない最適化
データソースに応じたスキャン方式の決定
集約/結合処理方式の決定
シャッフルの挿入
物理プランの最適化
ステータスの更新
論理プラン
12
制御エンジンが作った物理プランに基づいて、分散処理実行
時の各タスクの処理が決まる
実行プランの作られ方(論理プランの修正)
HashAggregateExec
ProjectExec
FilterExec
FileSourceScanExec
ShuffleExchangeExec
• 各オペレータはDataFrameのレコー
ドの具体的な処理方法を定義する
• 分散処理実行時には各タスクが
DataFrameのパーティションに対して
各オペレータを適用する
13
The Internal
ステートフル集約処理
14
• ステートレスな処理
• 属性の選択(プロジェクション)やフィルタなど、他のレコードと
独立に処理可能なもの
• マイクロバッチごとに、新規に到着したレコードで構成された
DataFrameを処理する
• ステートフルな処理
• 集約処理など
• 新規に到着したレコードに加えて、直前までのマイクロバッチ
により更新されたステートを加味してDataFrameを処理する
ステートレスな処理とステートフルな処理
15
ステートフル集約処理の例
• ストリーム処理で集約処理を行う場
合、過去に処理したデータも含めて
集約処理したい場合が多い
• 処理実行時点までに特定のイベン
トが発生した回数のカウントなど
• それまでの集約処理の計算結果も
加味して集約処理を行う
https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html
16
① 部分集約処理
• タスクローカルでグループごとに集約処理を行う
② 部分マージ処理1
• 各タスクが部分集約処理した結果を、グループキーに基づいて
シャッフルしてマージ
③ ステートリストア
• 直前のマイクロバッチで保存された「ステート」をリストアする
④ 部分マージ処理2
• 部分マージ処理1の出力とリストアしたステートをマージする
⑤ ステートセーブ
• 部分マージ処理2の結果を「ステート」として保存する
⑥ 最終処理
• 集約関数固有の最終処理
ステートフル集約処理は6つのフェーズで行われる
17
例題: 平均値を求める - 部分集約処理 -
20
17
30
A
B
C
area temp
A 20
B 17
C 30
・
・
・
DataFrame
(観測点の気温)
32
31
22
B
B
A
27
15
17
C
A
A
20
17
30
A
B
C
1
1
1
累積気温 観測件数
累積値とレコード数の属性を追加
sumarea count
63
22
B
A
2
1
27
32
C
A
1
2
分
割
し
て
各
タ
ス
ク
に
分
配
タ
ス
ク
ご
と
に
集
約
18
例題: 平均値を求める - 部分マージ処理1 -
20
17
30
A
B
C
1
1
1
累積気温 観測件数
sumarea count
63
22
B
A
2
1
27
32
C
A
1
2
20
22
32
A
A
A
1
1
2
17
63
B
B
1
2
30
27
C
C
1
1
74A 4
80B 3
57C 2
観測点ごとにマージ
(累積気温と観測件数を足し合わせる)
観
測
点
ご
と
に
シ
ャ
ッ
フ
ル
19
例題: 平均値を求める - ステートリストア -
sumarea count
80A 374A 4
80B 3
57C 2
areaの値をキーに、ステートストア
からステート(過去のマイクロバッチ
の部分マージ2の結果)を読み出す
ステートストア
⊕
⊕
⊕
150B 5
150C 5
74A 4
80A 3
80B 3
150B 5
57C 2
150C 5
key=A
key=B
key=C
20
例題: 平均値を求める - 部分マージ2 -
sumarea count
74A 4
80A 3
80B 3
150B 5
57C 2
150C 5
154A 7
230B 8
207C 7
ステートストアからリストアしたステートと、当該
マイクロバッチの部分マージ1の結果をマージ
(累積気温と観測件数を足し合わせる)
21
例題: 平均値を求める - ステートセーブ -
sumarea count
154A 7
230B 8
207C 7
ステートストア
areaの値をキーに、ステートをアップ
デート
ステートセーブの出力は出力モードに
依存する(この例はCompleteモード)
181D 6
154A 7
34E 2
230B 8
135F 5
207C 7
22
例題: 平均値を求める - 最終処理 -
最終処理(sum / countで観測地点ごとの平均気温を求める)
181D 6
154A 7
34E 2
230B 8
135F 5
207C 7
sumarea count
sum / count
30.1D
22A
avgarea
17E
28.8B
27F
29.6C
23
The Internal
イベントタイムウィンドウ集約処理
24
• ステートフル集約処理の一種
• データが処理系に到着した時刻に基づくウィンドウ集約では
なく、イベントタイム(レコードに意味付けされた時間。例え
ばイベントの生起時刻)に基づくウィンドウ集約
• Spark Streamingでは到着時刻に基づくウィンドウ集約処理
のみ実装されていた
イベントタイムウィンドウ集約処理
25
• データの到着時刻は必ずしも「関心ごと」を表さない
• 例えばデータの生起時刻に関心がある場合、遅延などで
データの到着順序の前後や到着間隔のズレが生じるため、
「到着時刻」に着目しても無意味
なぜイベントタイムウィンドウ集約処理が必要か
26
イベントタイムウィンドウ集約処理の例
https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html
27
window time word
start end
12:00 12:07 12:00 Spark
12:06 12:13 12:08 Hadoop
イベントタイムウィンドウの作り方
• 任意のイベントタイムを持つレコードについて、それらが属する、開始時間が
最も遅いタイムウィンドウを求める
• 求め方は実行プラン作成時に、イベントタイムを変数として定式化できる
• ウィンドウ幅=7分
• スライディング幅=3分
DataFrame
time word
12:00 Spark
12:08 Hadoop
28
イベントタイムウィンドウの作り方
time word
12:00 Spark
12:08 Hadoop
window time word
start end
11:54 12:01 12:00 Spark
11:57 12:04 12:00 Spark
12:00 12:07 12:00 Spark
12:00 12:07 12:08 Hadoop
12:03 12:10 12:08 Hadoop
12:06 12:13 12:08 Hadoop
• 任意のレコードが属するタイムウィンドウの最大数分だけタイムウィンドウを増幅する
• 最大数はウィンドウ幅とスライディング幅から求められる
• ウィンドウ幅=7分
• スライディング幅=3分
DataFrame
29
イベントタイムウィンドウの作り方
time word
12:00 Spark
12:08 Hadoop
time < window.start || window.end <= timeであるレコードを除外する
• ウィンドウ幅=7分
• スライディング幅=3分
DataFrame
window time word
start end
11:54 12:01 12:00 Spark
11:57 12:04 12:00 Spark
12:00 12:07 12:00 Spark
12:00 12:07 12:08 Hadoop
12:03 12:10 12:08 Hadoop
12:06 12:13 12:08 Hadoop
30
イベントタイムウィンドウ集約
windowとwordでグループ化/集約処理
window time word
start end
11:54 12:01 12:00 Spark
11:57 12:04 12:00 Spark
12:00 12:07 12:00 Spark
12:03 12:10 12:08 Hadoop
12:06 12:13 12:08 Hadoop
12:00 12:07 12:04 Spark
12:03 12:10 12:04 Spark
window word count
start end
11:54 12:01 Spark 1
11:57 12:04 Spark 1
12:00 12:07 Spark 2
12:03 12:10 Hadoop 1
12:03 12:10 Spark 1
12:06 12:13 Hadoop 1
31
The Internal
ウォーターマーク
32
• ストリーム処理ではデータの到着遅延はつきもの
• 異なるデータソース間の遅延のばらつき
• データソースと処理系間の伝送路の一時的な輻輳
ウォーターマークのモチベーション
https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html
33
• 遅れてきたデータをハンドリングする仕組み
• ステートフルな処理とともに用いられる
• マイクロバッチ実行時点での最新イベントタイム - 許容する
遅延時間で計算される
• 最新イベントタイムはマイクロバッチごとに制御エンジンが更
新する
ウォーターマーク
34
ウォーターマークの作用
https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html
35
ウォーターマークの作用
https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html
イベントタイム=12:17 > ウォーターマーク=12:11なので受理される
36
ウォーターマークの作用
イベントタイム=12:04 <= ウォーターマーク=12:11なので破棄される
https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html
37
• Structured Streamingの中でも特徴的な機能に焦点を当て、
裏では何が起きているのかを実装面から解説した
• 今回カバーしなかったエラーリカバリや、バージョン2.3で導
入される新機能、開発中のイベントドリブンのストリーム処
理エンジンも興味深いテーマ
まとめ
38© 2017 NTT DATA Corporation

More Related Content

What's hot

What's hot (20)

大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
 
平成最後の1月ですし、Databricksでもやってみましょうか
平成最後の1月ですし、Databricksでもやってみましょうか平成最後の1月ですし、Databricksでもやってみましょうか
平成最後の1月ですし、Databricksでもやってみましょうか
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
 
Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)
 
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
 
Hadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントHadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
 
Cassandraのしくみ データの読み書き編
Cassandraのしくみ データの読み書き編Cassandraのしくみ データの読み書き編
Cassandraのしくみ データの読み書き編
 
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
 
SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係
 
Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)
Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)
Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)
 
Apache Kafka 0.11 の Exactly Once Semantics
Apache Kafka 0.11 の Exactly Once SemanticsApache Kafka 0.11 の Exactly Once Semantics
Apache Kafka 0.11 の Exactly Once Semantics
 
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
Apache Sparkの基本と最新バージョン3.2のアップデート(Open Source Conference 2021 Online/Fukuoka ...
 
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
Apache Bigtopによるオープンなビッグデータ処理基盤の構築(オープンデベロッパーズカンファレンス 2021 Online 発表資料)
 
Apache Sparkのご紹介 (後半:技術トピック)
Apache Sparkのご紹介 (後半:技術トピック)Apache Sparkのご紹介 (後半:技術トピック)
Apache Sparkのご紹介 (後半:技術トピック)
 
データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
 
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
 
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
Apache Atlasの現状とデータガバナンス事例 #hadoopreadingApache Atlasの現状とデータガバナンス事例 #hadoopreading
Apache Atlasの現状とデータガバナンス事例 #hadoopreading
 
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
 

Similar to Structured Streaming - The Internal -

クラウド運用のためのストリームマイニング
クラウド運用のためのストリームマイニングクラウド運用のためのストリームマイニング
クラウド運用のためのストリームマイニング
Shin Matsumoto
 

Similar to Structured Streaming - The Internal - (20)

実践で学んだLog Analytics
実践で学んだLog Analytics実践で学んだLog Analytics
実践で学んだLog Analytics
 
ストリーミング視聴解析の基本とその応用 IPv4・IPv6デュアルソース
ストリーミング視聴解析の基本とその応用 IPv4・IPv6デュアルソースストリーミング視聴解析の基本とその応用 IPv4・IPv6デュアルソース
ストリーミング視聴解析の基本とその応用 IPv4・IPv6デュアルソース
 
Presto As A Service - Treasure DataでのPresto運用事例
Presto As A Service - Treasure DataでのPresto運用事例Presto As A Service - Treasure DataでのPresto運用事例
Presto As A Service - Treasure DataでのPresto運用事例
 
クラウド運用のためのストリームマイニング
クラウド運用のためのストリームマイニングクラウド運用のためのストリームマイニング
クラウド運用のためのストリームマイニング
 
Azure Stack HCI - パフォーマンス履歴 と Azure Monitor
Azure Stack HCI - パフォーマンス履歴 と Azure MonitorAzure Stack HCI - パフォーマンス履歴 と Azure Monitor
Azure Stack HCI - パフォーマンス履歴 と Azure Monitor
 
Apache Spark+Zeppelinでアドホックなネットワーク解析
Apache Spark+Zeppelinでアドホックなネットワーク解析Apache Spark+Zeppelinでアドホックなネットワーク解析
Apache Spark+Zeppelinでアドホックなネットワーク解析
 
Spark Analytics - スケーラブルな分散処理
Spark Analytics - スケーラブルな分散処理Spark Analytics - スケーラブルな分散処理
Spark Analytics - スケーラブルな分散処理
 
Qlik Gold ClientテクニカルDeep-Diveセッション
Qlik Gold ClientテクニカルDeep-DiveセッションQlik Gold ClientテクニカルDeep-Diveセッション
Qlik Gold ClientテクニカルDeep-Diveセッション
 
弊社IoT事例とAlexaSkil開発レシピ
弊社IoT事例とAlexaSkil開発レシピ弊社IoT事例とAlexaSkil開発レシピ
弊社IoT事例とAlexaSkil開発レシピ
 
Kapacitorでネットワークにおける リアルタイムイベント検出
Kapacitorでネットワークにおけるリアルタイムイベント検出Kapacitorでネットワークにおけるリアルタイムイベント検出
Kapacitorでネットワークにおける リアルタイムイベント検出
 
CAメインフレーム システムリソース削減に貢献する製品について
CAメインフレーム システムリソース削減に貢献する製品についてCAメインフレーム システムリソース削減に貢献する製品について
CAメインフレーム システムリソース削減に貢献する製品について
 
Spark Structured Streaming with Kafka
Spark Structured Streaming with KafkaSpark Structured Streaming with Kafka
Spark Structured Streaming with Kafka
 
AWS Black Belt Techシリーズ AWS CloudTrail & CloudWatch Logs
AWS Black Belt Techシリーズ AWS CloudTrail & CloudWatch LogsAWS Black Belt Techシリーズ AWS CloudTrail & CloudWatch Logs
AWS Black Belt Techシリーズ AWS CloudTrail & CloudWatch Logs
 
アプリケーション開発と分析のための Log Analytics
アプリケーション開発と分析のための Log Analytics アプリケーション開発と分析のための Log Analytics
アプリケーション開発と分析のための Log Analytics
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
 
Modern stream processing by Spark Structured Streaming
Modern stream processing by Spark Structured StreamingModern stream processing by Spark Structured Streaming
Modern stream processing by Spark Structured Streaming
 
シスコ装置を使い倒す!組込み機能による可視化からセキュリティ強化
シスコ装置を使い倒す!組込み機能による可視化からセキュリティ強化シスコ装置を使い倒す!組込み機能による可視化からセキュリティ強化
シスコ装置を使い倒す!組込み機能による可視化からセキュリティ強化
 
20180627 databricks ver1.1
20180627 databricks ver1.120180627 databricks ver1.1
20180627 databricks ver1.1
 
[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送
[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送
[Cloud OnAir] GCP 上でストリーミングデータ処理基盤を構築してみよう! 2018年9月13日 放送
 
IoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache FlinkIoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache Flink
 

More from NTT DATA OSS Professional Services

More from NTT DATA OSS Professional Services (20)

Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力Global Top 5 を目指す NTT DATA の確かで意外な技術力
Global Top 5 を目指す NTT DATA の確かで意外な技術力
 
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
 
Hadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返りHadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返り
 
HDFS Router-based federation
HDFS Router-based federationHDFS Router-based federation
HDFS Router-based federation
 
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイントPostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
 
Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状
 
Distributed data stores in Hadoop ecosystem
Distributed data stores in Hadoop ecosystemDistributed data stores in Hadoop ecosystem
Distributed data stores in Hadoop ecosystem
 
Apache Hadoopの未来 3系になって何が変わるのか?
Apache Hadoopの未来 3系になって何が変わるのか?Apache Hadoopの未来 3系になって何が変わるのか?
Apache Hadoopの未来 3系になって何が変わるのか?
 
Apache Hadoop and YARN, current development status
Apache Hadoop and YARN, current development statusApache Hadoop and YARN, current development status
Apache Hadoop and YARN, current development status
 
HDFS basics from API perspective
HDFS basics from API perspectiveHDFS basics from API perspective
HDFS basics from API perspective
 
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
 
20170303 java9 hadoop
20170303 java9 hadoop20170303 java9 hadoop
20170303 java9 hadoop
 
ブロックチェーンの仕組みと動向(入門編)
ブロックチェーンの仕組みと動向(入門編)ブロックチェーンの仕組みと動向(入門編)
ブロックチェーンの仕組みと動向(入門編)
 
Application of postgre sql to large social infrastructure jp
Application of postgre sql to large social infrastructure jpApplication of postgre sql to large social infrastructure jp
Application of postgre sql to large social infrastructure jp
 
Application of postgre sql to large social infrastructure
Application of postgre sql to large social infrastructureApplication of postgre sql to large social infrastructure
Application of postgre sql to large social infrastructure
 
Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Hadoop 2.8.0 の新機能 (抜粋)Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Hadoop 2.8.0 の新機能 (抜粋)
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
 
商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと商用ミドルウェアのPuppet化で気を付けたい5つのこと
商用ミドルウェアのPuppet化で気を付けたい5つのこと
 
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
 
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
 

Recently uploaded

Recently uploaded (11)

Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 

Structured Streaming - The Internal -