ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)

H
ちょっと理解に自信がないな
という皆さまに贈る
Hadoop/Sparkのキホン
日本Hadoopユーザー会
濱野 賢一朗/Kenichiro Hamano (NTTデータ)
2016年6月15日
IBM Datapalooza Tokyo 2016 講演資料
自己紹介
濱野 賢一朗 (はまの けんいちろう)
– 日本Hadoopユーザー会のメンバとして、
イベント Hadoop / Spark Conference
Japan や勉強会 Hadoopソースコード
リーディングの企画・実施を担当
– 翔泳社 『Hadoop徹底入門』 監修者
– NTT DATA 技術革新統括本部 に所属
– Hadoop 関係者で話題になった
「経産省の報告書」 の実証事業のPM
平成21年度 産学連携ソフトウェア工学実践事業報告書
高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)
http: //www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf
まずは
Hadoopって
何だっけ?
Hadoopを一言でいうと・・・
並列分散処理を実現するミドルウェア
複数のIAサーバを束ねて、
ひとつの大きな処理システムとして利用
特に大量データの格納・処理に最適化
HDDは今でも実質は 80MB/sec 程度が限界
5TBのデータを読み込むのに
約 5*1000*1000 /80 = 62500秒 = 17.4時間
この問題を解決するために、並列分散処理を活用
大量データの処理を実現するには
データを複数のサーバに分割して格納
利用時には、複数のサーバから、
それぞれのデータを同時に読み込む
 HDDの台数分だけのスループットを確保
1台だと 80MB/sec 程度でも
1000台だと 80GB/sec のスループット
5TBのデータを読み込みも 62.5 秒で実現
Hadoopの構成 (従来)
大きく 2つのコンポーネントで構成
分散ファイルシステム HDFS
Hadoop Distributed File System
並列分散処理フレームワーク
MapReduce Framework
アルゴリズム MapReduce を実現する
どちらも
Google が
発表した論文
のアイデアを
元に開発
されている
Hadoopの構成 (従来)
 集中管理型の分散システム
 データ管理や
分散処理ジョブ
の管理は
マスタサーバが
実施
 スレーブサーバは、
分散処理の
実行や
データの実体を
保存
Hadoopマスタサーバ
Hadoopクライアント
L2/L3スイッチ
NameNode JobTracker
L2スイッチ
Hadoopスレーブサーバ群
DataNode
TaskTracker
DataNode
TaskTracker
DataNode
TaskTracker
DataNode
TaskTracker
DataNode
TaskTracker
ディスク ディスク ディスク ディスク ディスク
分散ファイルシステム HDFS
NameNode
(Master)
DataNode (Slave)
クライアント
②③
①
①
①
ファイル
Heartbeat
メタ情報
管理
ブロック
管理
DataNode
状態監視
ブロックの
保存
1つのブロックを複数のDataNodeで保存
→ 任意のDataNodeが故障してもデータを失わない
ブロック
①
③
③
③
②
②
②
MapReduce (アルゴリズム)
大量の件数のデータがあった時に、
複数ワーカーで 並列に処理できる仕組み
例として、選挙の開票作業を想定
– 複数人で作業を分担して実施
– 最初に、投票用紙を分けて、
みんなで並行して投票者別に用紙を仕分ける
– 次に、投票者別の用紙を1カ所にまとめて、
それぞれの枚数を数える
MapReduce (アルゴリズム)
Aさん Bさん Cさん
①用紙を適当に3つに分ける
・・
・
・・
・
・・
・
a氏 b氏 e氏 a氏 b氏 e氏 a氏 b氏 e氏
②3人で並行して、
投票者別に用紙を
仕分ける
第1段階
第2段階
第3段階
④3人で並行して、
投票者ごとに
枚数を数える
a氏の
得票数
b氏の
得票数
d氏の
得票数
e氏の
得票数
c氏の
得票数
投票
結果
Aさん Bさん Cさん
a氏 e氏
③投票者ごと
用紙を集める
d氏c氏b氏
MapReduce (アルゴリズム)
・・
・
・・
・
・・
・
Aさん Bさん Cさん
a氏 b氏 E氏 a氏 b氏 e氏 a氏 b氏 e氏
①用紙を適当に3つに分ける
②3人で並行して、
投票者別に用紙を
仕分ける
a氏 e氏
③投票者ごと
用紙を集める
④3人で並行して、
投票者ごとに
枚数を数える
a氏の
得票数
b氏の
得票数
d氏の
得票数
e氏の
得票数
c氏の
得票数
第1段階
第2段階
第3段階
投票
結果
Aさん Bさん Cさん
d氏c氏b氏
Map処理
データを分類・仕分け
Reduce処理
分類・仕分けされた
データごとに処理
MapReduce (アルゴリズム)
・・
・
・・
・
・・
・
Aさん Bさん Cさん
a氏 b氏 E氏 a氏 b氏 e氏 a氏 b氏 e氏
①用紙を適当に3つに分ける
②3人で並行して、
投票者別に用紙を
仕分ける
a氏 e氏
③投票者ごと
用紙を集める
④3人で並行して、
投票者ごとに
枚数を数える
a氏の
得票数
b氏の
得票数
d氏の
得票数
e氏の
得票数
c氏の
得票数
第1段階
第2段階
第3段階
投票
結果
Aさん Bさん Cさん
d氏c氏b氏
N人でやれば N倍のスピード
(相互に影響を受けずに作業できる)
N人でやれば 約N倍のスピード
(相互に影響を受けずに作業できる)
MapReduce Framework
JobTracker
(MASTER)
TaskTracker
(SLAVE)
クライアント
② ③ ①
タスク実行中
タスク実行待ち
タスク実行(競争)中
MapReduce
ジョブ管理
タスク
管理
Heartbeat
TaskTracker
状態監視
MapReduce
ジョブ
M
R
同じ処理の投機的実行
データのローカリティを意識した
タスクの実行
Map Map Reduce
MR M
RM
Map,Reduce
タスクの実行
Hadoopの特徴
HDFS
 大量のデータを高スループットに読み込める
 サーバが故障しても、データの安全性は担保
MapReduce
 Map処理、Reduce処理のみを指定すれば
(原則はJavaで処理を記述)
あとはフレームワークが並列分散処理を実現
 ノード数を増やせば、基本スケール
 サーバが故障しても、ジョブは実行される
HDFS
 大量のデータを高スループットに読み込める
 サーバが故障しても、データの安全性は担保
MapReduce
 Map処理、Reduce処理のみを指定すれば
(原則はJavaで処理を記述)
あとはフレームワークが並列分散処理
 ノード数を増やせば、基本スケール
 サーバが故障しても、ジョブは実行される
Hadoopの特徴
並列分散処理の
面倒な部分を
解決してくれる
ミドルウェア
Hadoopは何に利用できるのか?
データ読み込みのスループットの最大化
→ 全件データ (Big Data) 処理の実現
 ユーザーごとの個別のフィードバックの実現
(ソーシャルなサービス、レコメンドなど)
並列分散処理によるバッチ処理の高速化
→ データ件数の増大に対応
Hadoopの活用例
 過去のアクセス履歴を格納・処理して、ユーザーごとの
嗜好(特徴量)を抽出、コンテンツ最適化やレコメンド
 オンラインゲームなどのサービスにおいて、ユーザー行動
を分析して、解約低減やその効果の評価
 金融商品の現在価値計算 (中間データが肥大化する
シミュレーション)、利用者ごとのリスク計算
 N:Nのデータの突き合わせが必要な名寄せ系処理
 PL/SQL等で多件数の小容量データを繰り返し取得・
処理していた処理の高速化 (並列処理に)
 タービン、橋梁、自動車、航空機に付けたセンサーから
のデータを格納・処理して故障検知、利用の効率化
現状のHadoopでは YARN が導入
分散ファイルシステム
HDFS
バッチ処理
MapReduce
従来のHadoop
分散ファイルシステム
HDFS
バッチ処理
MapReduce2
現在のHadoop
リソース制御
YARN
並列分散処理フレームワークからリソース制御の
レイヤを切り出された
YARNを使いこなすと・・・
分散ファイルシステム
HDFS
バッチ処理
MapReduce2
リソース制御
YARN
ストリーム処理
Storm
・・・・・・
Spark
 YARNにより単一クラスタ内に
複数の分散処理アーキテクチャが同居可能になる
→ 蓄積済みの大量データを移動することなく、
同一計算リソースで多様な処理を実現
Sparkとは
Apache Sparkをざっくり言うと
MapReduceに限らず、DAG(有向非循環グラフ)
型で柔軟に並列分散処理を実行できるエンジン
– DAG型エンジンは複数登場している
join
filter
groupby
map
map
SparkではRDD(Resilient
Distributed Dataset)とい
うデータ集合を単位に扱う
実際には複数マシンのメモ
リ上に分散配置され、耐障
害性の機構も備わる
ひとつのジョブ
参考: RDDによる開発
RDDベースの処理の記述
– MapReduceに比べると簡便に記述できる
– 配列やリストなどのコレクションのように扱える
Sparkの処理は高速!
 HadoopではMapReduceの単位が1つのジョブ
 反復処理や複雑な処理では、I/O量が多くなりすぎる
M R
Map処理 Reduce処理
M R M R ・・・
ジョブ
HDFS
IO IOIO IO
ジョブ間のデータの受け渡しのたびに、HDFSへのI/Oが伴う
Sparkの処理は高速!
 Sparkでは複雑な処理でも1つのジョブで定義でき、
中間データを都度出力する必要がないため、I/Oは
ジョブの入出力だけに抑えられる
RDD RDD RDDRDD
RDD RDD
Sparkジョブ
HDFS
複雑な処理においてジョブが多段になることが少ないため、ジョブ間の
データの受け渡しに伴うI/Oは最小限に抑えられる
IO
IO
IO
RDDの変換
補足: キャッシュの活用
 何度も利用するRDDは、複数のサーバのメモリに分割し
てキャッシュできる
 キャッシュを活用することで、同じデータを利用する場合
でも、都度データを読み込む必要がない
RDDRDD
ジョブA
RDD
HDFS
RDD
キャッシュ済みのRDD
RDD RDD RDD
ジョブB
ジョブBはジョブAがキャッシュ
したデータを利用できる
キャッシュを利用できるので、
HDFSからのデータの読み込
みは発生しない
補足: キャッシュの活用
キャッシュは反復処理でも有効に機能する
RDD RDD RDD
前段の反復処理の結果を
入力とするジョブ キャッシュ済みのRDD
2回目の反復以降は、
キャッシュしたRDDを
処理すれば良い。HDFS
最初の反復のみ、
HDFSからデータ
を読み出す
Sparkのエコシステム
ジョブもSQLもストリーミングも機械学習も
同一のSparkプラットフォーム上で動作する
– Hadoopもエコシステムは充実しているが、個々に開発
データソース(HDFSなど)
• Scala/Java/Python
で処理が記述できる
• インタラクティブシェル
が付属し、試行錯誤
も可能
http://cdn.oreillystatic.com/en/assets/1/event/126/Apache%20Spark_%20What_s%20new_%20what_s%20coming%20Presentation.pdf
ストリーミング処理、機械
学習ライブラリ、グラフ
処理エンジン等が付属
分散処理エンジンを含む
コア部分
Sparkの主要なエコシステム
SparkSQL
– JavaやScala内のアプリケーション内でSQLを組み込める
Spark Streaming
– マイクロバッチ処理によるストリーミングエンジン
– 数秒~数分単位での流入するデータを(繰り返し)処理できる
MLlib / ML pipelines
– Spark用の機械学習ライブラリとツール群
– 機械学習では 別プロジェクトの Mahout もSparkに対応
GraphX
– Spark用のグラフ処理エンジン
Sparkも 絶賛進化中
まもなく2.0がリリースされるが、これまでの
マイナーリリースでも大きく進化を遂げてきている
1.1.0
Sort based shuffle
Netty based
block server
Dynamic
Resource
Allocation
1.2.0
バージョン
DataFrame
1.3.0
Visualization
Tungsten
1.4.0
Unified Memory
Management
1.6.0
参考: DataFrame API による開発
 Spark 1.3.0 より DataFrame API が利用可能
 構造化されたデータの処理が簡潔に記述できる
http://cdn.oreillystatic.com/en/assets/1/event/126/Apache%20Spark_%20What_s%20new_%20what_s%20coming%20Presentation.pdf
DataFrame APIで
同様の処理を記述
参考: DataFrame API による開発
 Spark SQLのオプティマイザの恩恵が受けられる
 オプティマイザによってJVMで動作する物理プランが生成
されるため、開発言語の違いによる著しい性能劣化は
起こらない
http://www.slideshare.net/databricks/introducing-dataframes-in-spark-for-large-scale-data-science
Hadoop / Spark Conference Japan 2016のアンケート
本番環境で利用中 489人 35.6%
試しに動かしている 374人 27.2%
利用実績なし(利用予定あり) 218人 15.9%
利用実績なし(利用予定なし) 293人 21.3%
3か月未満 145人 16.0%
3か月以上6か月未満 69人 7.6%
6か月以上1年未満 85人 9.4%
1年以上3年未満 298人 33.0%
3年以上 307人 34.0%
本番環境で利用中 160人 11.7%
試しに動かしている 437人 31.8%
利用実績なし(利用予定あり) 348人 25.3%
利用実績なし(利用予定なし) 429人 31.2%
3か月未満 214人 34.4%
3か月以上6か月未満 93人 14.9%
6か月以上1年未満 127人 20.4%
1年以上3年未満 171人 27.4%
3年以上 18人 2.9%
Hadoopの利用状況を教えてください Sparkの利用状況を教えてください
Hadoop利用歴を教えてください Spark利用歴を教えてください
本番環境で利用中 試しに動かしている 実績なし(予定あり) 実績なし(予定なし)
まとめ
Hadoopは大量データを並列分散で
格納・処理するための仕組み
Sparkは、DAG型の並列分散処理を実現
より高速に動作
SQL、ストリーミング処理、機械学習、
グラフ処理も同一エンジンで動作
もっと具体的に知りたい という方は、
『Hadoop徹底入門 第2版』 (翔泳社)
『Apache Spark入門』 (翔泳社)
をぜひ読んでみてください!
ご静聴ありがとうございました
日本Hadoopユーザー会の
活動への応援、
引き続きよろしくお願いします
1 of 34

Recommended

40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) by
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) hamaken
100.1K views34 slides
Hadoopの概念と基本的知識 by
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Ken SASAKI
56.1K views60 slides
Hadoop入門 by
Hadoop入門Hadoop入門
Hadoop入門Preferred Networks
18.2K views46 slides
「GraphDB徹底入門」〜構造や仕組み理解から使いどころ・種々のGraphDBの比較まで幅広く〜 by
「GraphDB徹底入門」〜構造や仕組み理解から使いどころ・種々のGraphDBの比較まで幅広く〜「GraphDB徹底入門」〜構造や仕組み理解から使いどころ・種々のGraphDBの比較まで幅広く〜
「GraphDB徹底入門」〜構造や仕組み理解から使いどころ・種々のGraphDBの比較まで幅広く〜Takahiro Inoue
49K views91 slides
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料) by
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)NTT DATA OSS Professional Services
53K views60 slides
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~ by
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTT DATA OSS Professional Services
6.3K views31 slides

More Related Content

What's hot

ビッグデータ処理データベースの全体像と使い分け by
ビッグデータ処理データベースの全体像と使い分けビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けRecruit Technologies
31.7K views58 slides
異次元のグラフデータベースNeo4j by
異次元のグラフデータベースNeo4j異次元のグラフデータベースNeo4j
異次元のグラフデータベースNeo4j昌桓 李
13.1K views88 slides
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05) by
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)NTT DATA Technology & Innovation
15.6K views52 slides
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法 ※講演は翻訳資料にて行います。 - Getting the Best... by
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法  ※講演は翻訳資料にて行います。 - Getting the Best...PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法  ※講演は翻訳資料にて行います。 - Getting the Best...
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法 ※講演は翻訳資料にて行います。 - Getting the Best...Holden Karau
823 views47 slides
平成最後の1月ですし、Databricksでもやってみましょうか by
平成最後の1月ですし、Databricksでもやってみましょうか平成最後の1月ですし、Databricksでもやってみましょうか
平成最後の1月ですし、DatabricksでもやってみましょうかRyuichi Tokugami
1.4K views19 slides
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019) by
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Noritaka Sekiyama
20.5K views61 slides

What's hot(20)

ビッグデータ処理データベースの全体像と使い分け by Recruit Technologies
ビッグデータ処理データベースの全体像と使い分けビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
Recruit Technologies31.7K views
異次元のグラフデータベースNeo4j by 昌桓 李
異次元のグラフデータベースNeo4j異次元のグラフデータベースNeo4j
異次元のグラフデータベースNeo4j
昌桓 李13.1K views
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05) by NTT DATA Technology & Innovation
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
大規模データ活用向けストレージレイヤソフトのこれまでとこれから(NTTデータ テクノロジーカンファレンス 2019 講演資料、2019/09/05)
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法 ※講演は翻訳資料にて行います。 - Getting the Best... by Holden Karau
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法  ※講演は翻訳資料にて行います。 - Getting the Best...PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法  ※講演は翻訳資料にて行います。 - Getting the Best...
PySparkによるジョブを、より速く、よりスケーラブルに実行するための最善の方法 ※講演は翻訳資料にて行います。 - Getting the Best...
Holden Karau823 views
平成最後の1月ですし、Databricksでもやってみましょうか by Ryuichi Tokugami
平成最後の1月ですし、Databricksでもやってみましょうか平成最後の1月ですし、Databricksでもやってみましょうか
平成最後の1月ですし、Databricksでもやってみましょうか
Ryuichi Tokugami1.4K views
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019) by Noritaka Sekiyama
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Noritaka Sekiyama20.5K views
[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送 by Google Cloud Platform - Japan
[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送
[Cloud OnAir] BigQuery の一般公開データセットを 利用した実践的データ分析 2019年3月28日 放送
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ... by NTT DATA Technology & Innovation
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope... by NTT DATA Technology & Innovation
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
S3 整合性モデルと Hadoop/Spark の話 by Noritaka Sekiyama
S3 整合性モデルと Hadoop/Spark の話S3 整合性モデルと Hadoop/Spark の話
S3 整合性モデルと Hadoop/Spark の話
Noritaka Sekiyama3.2K views
Deep Dive into Spark SQL with Advanced Performance Tuning by Takuya UESHIN
Deep Dive into Spark SQL with Advanced Performance TuningDeep Dive into Spark SQL with Advanced Performance Tuning
Deep Dive into Spark SQL with Advanced Performance Tuning
Takuya UESHIN3.8K views
マルチクラウドDWH(Snowflake)のすすめ by Yuuta Hishinuma
マルチクラウドDWH(Snowflake)のすすめマルチクラウドDWH(Snowflake)のすすめ
マルチクラウドDWH(Snowflake)のすすめ
Yuuta Hishinuma746 views
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料) by NTT DATA Technology & Innovation
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料) by NTT DATA Technology & Innovation
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc... by Yahoo!デベロッパーネットワーク
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019  #hc...HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019  #hc...
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...
ストリーム処理を支えるキューイングシステムの選び方 by Yoshiyasu SAEKI
ストリーム処理を支えるキューイングシステムの選び方ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方
Yoshiyasu SAEKI40.2K views

Viewers also liked

データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~ by
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~NTT DATA OSS Professional Services
10K views22 slides
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会) by
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)narumikanno0918
134.3K views107 slides
機械学習によるデータ分析まわりのお話 by
機械学習によるデータ分析まわりのお話機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話Ryota Kamoshida
568.1K views75 slides
elasticsearch-hadoopをつかってごにょごにょしてみる by
elasticsearch-hadoopをつかってごにょごにょしてみるelasticsearch-hadoopをつかってごにょごにょしてみる
elasticsearch-hadoopをつかってごにょごにょしてみるKatsushi Yamashita
15.1K views21 slides
Hadoopのシステム設計・運用のポイント by
Hadoopのシステム設計・運用のポイントHadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイントCloudera Japan
34.7K views57 slides
はやわかりHadoop by
はやわかりHadoopはやわかりHadoop
はやわかりHadoopShinpei Ohtani
5.6K views152 slides

Viewers also liked(14)

スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会) by narumikanno0918
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
narumikanno0918134.3K views
機械学習によるデータ分析まわりのお話 by Ryota Kamoshida
機械学習によるデータ分析まわりのお話機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話
Ryota Kamoshida568.1K views
elasticsearch-hadoopをつかってごにょごにょしてみる by Katsushi Yamashita
elasticsearch-hadoopをつかってごにょごにょしてみるelasticsearch-hadoopをつかってごにょごにょしてみる
elasticsearch-hadoopをつかってごにょごにょしてみる
Katsushi Yamashita15.1K views
Hadoopのシステム設計・運用のポイント by Cloudera Japan
Hadoopのシステム設計・運用のポイントHadoopのシステム設計・運用のポイント
Hadoopのシステム設計・運用のポイント
Cloudera Japan34.7K views
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat... by Naoki (Neo) SATO
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
Naoki (Neo) SATO1.8K views
SparkMLlibで始めるビッグデータを対象とした機械学習入門 by Takeshi Mikami
SparkMLlibで始めるビッグデータを対象とした機械学習入門SparkMLlibで始めるビッグデータを対象とした機械学習入門
SparkMLlibで始めるビッグデータを対象とした機械学習入門
Takeshi Mikami1.7K views
ロジスティック回帰分析の書き方 by Sayuri Shimizu
ロジスティック回帰分析の書き方ロジスティック回帰分析の書き方
ロジスティック回帰分析の書き方
Sayuri Shimizu182.6K views
Apache Hadoopを利用したビッグデータ分析基盤 by Hortonworks Japan
Apache Hadoopを利用したビッグデータ分析基盤Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤
Hortonworks Japan2.3K views
What the Spark!? Intro and Use Cases by Aerospike, Inc.
What the Spark!? Intro and Use CasesWhat the Spark!? Intro and Use Cases
What the Spark!? Intro and Use Cases
Aerospike, Inc. 5.7K views
Scala警察のすすめ by takezoe
Scala警察のすすめScala警察のすすめ
Scala警察のすすめ
takezoe12.3K views
Top 5 mistakes when writing Spark applications by hadooparchbook
Top 5 mistakes when writing Spark applicationsTop 5 mistakes when writing Spark applications
Top 5 mistakes when writing Spark applications
hadooparchbook11.3K views

Similar to ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)

Big data解析ビジネス by
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネスMie Mori
3.5K views26 slides
BIG DATA サービス と ツール by
BIG DATA サービス と ツールBIG DATA サービス と ツール
BIG DATA サービス と ツールNgoc Dao
1.4K views36 slides
Introduction to Hadoop and Spark (before joining the other talk) and An Overv... by
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...DataWorks Summit/Hadoop Summit
1.2K views38 slides
Hadoopカンファレンス2013 by
Hadoopカンファレンス2013Hadoopカンファレンス2013
Hadoopカンファレンス2013Recruit Technologies
8.3K views49 slides
マーケティング向け大規模ログ解析事例紹介 by
マーケティング向け大規模ログ解析事例紹介マーケティング向け大規模ログ解析事例紹介
マーケティング向け大規模ログ解析事例紹介Kenji Hara
2.7K views21 slides
[de:code 2019 振り返り Night!] Data Platform by
[de:code 2019 振り返り Night!] Data Platform[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data PlatformNaoki (Neo) SATO
1.4K views108 slides

Similar to ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)(20)

Big data解析ビジネス by Mie Mori
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
Mie Mori3.5K views
BIG DATA サービス と ツール by Ngoc Dao
BIG DATA サービス と ツールBIG DATA サービス と ツール
BIG DATA サービス と ツール
Ngoc Dao1.4K views
マーケティング向け大規模ログ解析事例紹介 by Kenji Hara
マーケティング向け大規模ログ解析事例紹介マーケティング向け大規模ログ解析事例紹介
マーケティング向け大規模ログ解析事例紹介
Kenji Hara2.7K views
[de:code 2019 振り返り Night!] Data Platform by Naoki (Neo) SATO
[de:code 2019 振り返り Night!] Data Platform[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform
Naoki (Neo) SATO1.4K views
あなたの知っているSAPは古いかもしれません by Mana Matsudate
あなたの知っているSAPは古いかもしれませんあなたの知っているSAPは古いかもしれません
あなたの知っているSAPは古いかもしれません
Mana Matsudate4.3K views
Beginner must-see! A future that can be opened by learning Hadoop by DataWorks Summit
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning Hadoop
DataWorks Summit488 views
NTT Communications' Initiatives to Utilize Infrastructure Data by DataWorks Summit
NTT Communications' Initiatives to Utilize Infrastructure DataNTT Communications' Initiatives to Utilize Infrastructure Data
NTT Communications' Initiatives to Utilize Infrastructure Data
DataWorks Summit2.2K views
セミナ受講レポート NRI Senju V12 by Yukio Saito
セミナ受講レポート NRI Senju V12セミナ受講レポート NRI Senju V12
セミナ受講レポート NRI Senju V12
Yukio Saito1.1K views
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料) by NTT DATA Technology & Innovation
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
ビジネスインテリジェンス入門~OSSでBIを始めよう~ by Kensuke SAEKI
ビジネスインテリジェンス入門~OSSでBIを始めよう~ビジネスインテリジェンス入門~OSSでBIを始めよう~
ビジネスインテリジェンス入門~OSSでBIを始めよう~
Kensuke SAEKI10.9K views
Hadoop/Spark セルフサービス系の事例まとめ by Yuta Imai
Hadoop/Spark セルフサービス系の事例まとめHadoop/Spark セルフサービス系の事例まとめ
Hadoop/Spark セルフサービス系の事例まとめ
Yuta Imai2K views
Hadoop Summit 2016 San Jose レポート by Kimihiko Kitase
Hadoop Summit 2016  San Jose レポートHadoop Summit 2016  San Jose レポート
Hadoop Summit 2016 San Jose レポート
Kimihiko Kitase1.1K views
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション by Dell TechCenter Japan
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
【講演資料】ビッグデータ時代の経営を支えるビジネスアナリティクスソリューション
Yifeng hadoop-present-public by Yifeng Jiang
Yifeng hadoop-present-publicYifeng hadoop-present-public
Yifeng hadoop-present-public
Yifeng Jiang871 views
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~ by Developers Summit
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
Developers Summit5.9K views
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版) by Kensuke SAEKI
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
Kensuke SAEKI4.4K views
IPDPS & HPDC 報告 by Junya Arai
IPDPS & HPDC 報告IPDPS & HPDC 報告
IPDPS & HPDC 報告
Junya Arai661 views

Recently uploaded

速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料) by
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
13 views38 slides
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20... by
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...NTT DATA Technology & Innovation
73 views42 slides
SSH応用編_20231129.pdf by
SSH応用編_20231129.pdfSSH応用編_20231129.pdf
SSH応用編_20231129.pdficebreaker4
172 views13 slides
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 by
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化Knowledge & Experience
8 views34 slides
Windows 11 information that can be used at the development site by
Windows 11 information that can be used at the development siteWindows 11 information that can be used at the development site
Windows 11 information that can be used at the development siteAtomu Hidaka
71 views41 slides
The Things Stack説明資料 by The Things Industries by
The Things Stack説明資料 by The Things IndustriesThe Things Stack説明資料 by The Things Industries
The Things Stack説明資料 by The Things IndustriesCRI Japan, Inc.
41 views29 slides

Recently uploaded(12)

速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料) by NTT DATA Technology & Innovation
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20... by NTT DATA Technology & Innovation
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
SSH応用編_20231129.pdf by icebreaker4
SSH応用編_20231129.pdfSSH応用編_20231129.pdf
SSH応用編_20231129.pdf
icebreaker4172 views
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化 by Knowledge & Experience
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
「概念モデリング自動化に向けた第一歩」 ~ ChatGPT・Open AI 活用による開発対象のモデル化
Windows 11 information that can be used at the development site by Atomu Hidaka
Windows 11 information that can be used at the development siteWindows 11 information that can be used at the development site
Windows 11 information that can be used at the development site
Atomu Hidaka71 views
The Things Stack説明資料 by The Things Industries by CRI Japan, Inc.
The Things Stack説明資料 by The Things IndustriesThe Things Stack説明資料 by The Things Industries
The Things Stack説明資料 by The Things Industries
CRI Japan, Inc.41 views
Web3 Career_クレデン資料 .pdf by nanamatsuo
Web3 Career_クレデン資料 .pdfWeb3 Career_クレデン資料 .pdf
Web3 Career_クレデン資料 .pdf
nanamatsuo14 views
01Booster Studio ご紹介資料 by ssusere7a2172
01Booster Studio ご紹介資料01Booster Studio ご紹介資料
01Booster Studio ご紹介資料
ssusere7a2172300 views
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料) by NTT DATA Technology & Innovation
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
SNMPセキュリティ超入門 by mkoda
SNMPセキュリティ超入門SNMPセキュリティ超入門
SNMPセキュリティ超入門
mkoda175 views
さくらのひやおろし2023 by 法林浩之
さくらのひやおろし2023さくらのひやおろし2023
さくらのひやおろし2023
法林浩之91 views

ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)