SlideShare a Scribd company logo
1 of 63
© 2021 NTT DATA Corporation
Open Source Conference 2021 Online/Fukuoka
Hadoop/Sparkを使うなら"Bigtop"を使い熟そう!
~並列分散処理基盤のいま、からBigtopの最近の取り組みまで一挙ご紹介~
2021年11月20日
株式会社NTTデータ
© 2021 NTT DATA Corporation 2
自己紹介
菅野 未来
Kanno、Miki
NTTデータ 技術革新統括本部 システム技術本部
デジタル技術部 インテグレーション技術担当
・入社以来、公共系大規模システムのミッションクリティカル案件に基盤技術者として従事
・2019年度から基盤やOSSの専門チームへ社内公募で異動
経歴
現在の業務
・OSS(Bigtop)に関する技術開発
・基盤技術/知識を軸とした案件技術支援・OSSサポート
© 2021 NTT DATA Corporation 3
アジェンダ
1. 並列分散処理とは
2. 大規模並列分散処理基盤を構成する要素
3. 大規模並列分散処理基盤を使いこなすために
4. Apache Bigtopのご紹介
5. NTTデータのBigtopソリューションのご紹介
6. おわりに
© 2021 NTT DATA Corporation 4
アジェンダ
1. 並列分散処理とは
2. 大規模並列分散処理基盤を構成する要素
3. 大規模並列分散処理基盤を使いこなすために
4. Apache Bigtopのご紹介
5. NTTデータのBigtopソリューションのご紹介
6. おわりに
© 2021 NTT DATA Corporation 5
並列分散処理とは(1/2)
並列分散処理とは
– データを複数台のサーバに分散して蓄積および並列処理するための手法
– 大量のデータ(ビッグデータ)を現実的な時間(数分~数時間)で処理するために用いる
並列分散処理を用いないで(=単体のサーバで)大量のデータを処理しようとすると
– データを抱えきれない
– データを現実的な時間で処理できない
オープンソースの世界では、大規模並列分散処理フレームワークとしてApache Hadoopが誕生
© 2021 NTT DATA Corporation 6
並列分散処理とは(2/2)
初期のHadoopの適用領域は以下のようなイメージ
しかし、最近では・・・
秒
分
時間
日
処
理
の
レ
イ
テ
ン
シ
バッチ処理
リアルタイム処理
データサイズ
少ない 多い
オンライン処理
汎用検索
GB(ギガバイト) TB(テラバイト) PB(ペタバイト)
TB(テラバイト)
オンバッチ処理
純バッチ処理
RDBMSの適用領域
Hadoopの適用領域
© 2021 NTT DATA Corporation 7
大規模並列分散処理の現状
ソフトウェアの進化とともにユースケースも増えてきている
また、Hadoopの成功を受けて、多くのプロダクトが登場した
→複雑で理解しづらくなっている
このほかにも書ききれなかったものがたくさん…
© 2021 NTT DATA Corporation 8
本日の前半のおはなし
本日の前半では、そんな大規模並列分散処理の “イマドキ” についてお伝えします
どんな
組み合わせで
使えばいいのか
どう
使えばいいのか
上手に
利用するには
数あるプロダクトの中でも
代表的なものを例にご紹介
複数データセンタで
利用するには
© 2021 NTT DATA Corporation 9
アジェンダ
1. 並列分散処理とは
2. 大規模並列分散処理基盤を構成する要素
3. 大規模並列分散処理基盤を使いこなすために
4. Apache Bigtopのご紹介
5. NTTデータのBigtopソリューションのご紹介
6. おわりに
© 2021 NTT DATA Corporation 10
大規模並列分散処理で行われる処理方式
• バッチ処理
• ストリーム処理
保存
データ
生成元
処理 データ
利用先
データを貯めて まとめて処理
データ
生成元
データ
利用先
処理
受信
データを受け取って すぐに処理
© 2021 NTT DATA Corporation 11
大規模並列分散処理で行われる処理方式
バッチ処理:
ビッグデータ活用黎明期からの活用スタイル
まとまった大規模なデータを効率よく処理
• データ生成元の例
– システムのDB
– ファイルサーバ
• 活用例
– 長期的なデータを対象とした分析
– 旧来システムのバッチ処理高速化、オフロード
保存
データ
生成元
処理 データ
利用先
データを貯めて まとめて処理
© 2021 NTT DATA Corporation 12
大規模並列分散処理で行われる処理方式
ストリーム処理:
近年利用が進んでいる活用スタイル
細かく数の多いデータをリアルタイムに処理
• データ生成元の例
– モバイルアプリ、Webアプリ(アプリケーションのログ)
– IoT機器(センサーログ)
• 活用例
– ユーザー行動のリアルタイムな把握、リアルタイムなマーケティング
– 機器の異常検知
データ
生成元
データ
利用先
処理
受信
データを受け取って すぐに処理
© 2021 NTT DATA Corporation 13
大規模並列分散処理で行われる処理方式
どちらの方式が優れているということではなく、目的に応じて適材適所で用いる
バッチ処理:
ストリーム処理:
保存
データ
生成元
処理 データ
利用先
データを貯めて まとめて処理
データ
生成元
データ
利用先
処理
受信
データを受け取って すぐに処理
© 2021 NTT DATA Corporation 14
イマドキの大規模並列分散処理基盤
バッチ処理、ストリーム処理の両方に必要な機能を満たせる
大規模並列分散処理基盤
データ
生成元
データ
利用先
:データの流れ
収集 保存 処理
© 2021 NTT DATA Corporation 15
イマドキの大規模並列分散処理基盤
バッチ処理、ストリーム処理の両方に必要な機能を満たせる
大規模並列分散処理基盤
データ
生成元
データ
利用先
:データの流れ
収集 保存 処理
バッチ処理
© 2021 NTT DATA Corporation 16
イマドキの大規模並列分散処理基盤
バッチ処理、ストリーム処理の両方に必要な機能を満たせる
大規模並列分散処理基盤
データ
生成元
データ
利用先
:データの流れ
収集 保存 処理
ストリーム処理
© 2021 NTT DATA Corporation 17
イマドキの大規模並列分散処理基盤
バッチ処理、ストリーム処理の両方に必要な機能を満たせる
大規模並列分散処理基盤
データ
生成元
データ
利用先
:データの流れ
収集 保存 処理
バッチ処理
© 2021 NTT DATA Corporation 18
Apache Hadoop: すべてはここからはじまった
• 大規模データのための並列分散処理フレームワーク
• 複数台の汎用サーバを使い、全体で大きな問題を解かせる
Hadoopとは
• 大規模なデータの保存と処理を並列分散処理に適した方法で行う
Hadoopが果たしてくれる役割
• 現実的なコストで並列分散処理を行えるようになった
Hadoopの登場で実現したこと
© 2021 NTT DATA Corporation 19
Hadoopが登場した後の大規模並列処理基盤の全体像
大規模データの保存と処理が行えるようになった
大規模並列分散処理基盤
データ
生成元
データ
利用先
:データの流れ
データを
保存
して
そのデータを
処理
する
© 2021 NTT DATA Corporation 20
Hadoopのコンセプトと弱点
コンセプトは複数台のサーバのディスクを効率よく利用すること
ただしHadoop MapReduceはその仕組み上、繰り返しの多い処理・複雑な処理が苦手
– 1つのMapReduceジョブ(処理単位)で実現できることは単純
⇒複雑な処理を実装するには、MapReduceジョブの組み合わせで実現
– MapReduceジョブの都度ディスクの読み書きが発生
・・・
複数台のサーバで
処理を分担する
ディスクの性能を
最大限に発揮させ、
スループットを最大化
ディスクの読み書きはコンピュータ処理で
最も時間のかかる操作の1つ
© 2021 NTT DATA Corporation 21
Apache Spark: 複雑な処理も高速に
• 大規模データのための並列分散処理フレームワーク
• 複数台の汎用サーバを使い、全体で大きな問題を解かせる
Sparkとは
• メモリ/CPU/ディスクなどのリソースを効率的に利用
• SQLによる記述、機械学習、ストリーム処理
などの並列分散処理で頻出の処理のライブラリを内包
Sparkの特徴
• 複雑な処理も高速に処理することができる
• 豊富なライブラリや高級APIが付属し、複雑な処理も容易に実装できる
Sparkの登場で実現したこと
© 2021 NTT DATA Corporation 22
Sparkを加えた大規模並列分散処理基盤の全体像
大規模データの複雑な処理を行えるようになった
データ
生成元
データ
利用先
複雑な処理
でも
高速に処理
する
大規模並列分散処理基盤
:データの流れ
© 2021 NTT DATA Corporation 23
Hadoopの課題はまだ存在した
Hadoopにデータを入れること
これまでは個別に対応してきたが、コストが高い
この部分
前項の
スライド
© 2021 NTT DATA Corporation 24
Fluentd/Embulk: どこからどこへでもデータを転送
• データ収集基盤ミドルウェア
Fluentd/Embulkとは
• データの入出力側がプラグイン式になっており、簡単な開発で
あらゆるデータ入出力に対応できる
Fluentd/Embulkの特徴
• 生成元から容易にデータを集めてくることができる
Fluentd/Embulkの登場によって実現されること
ストリーム処理
向き
バッチ処理
向き
© 2021 NTT DATA Corporation 25
Fluentd、 Embulkを加えた大規模並列分散処理基盤の全体像
データの収集が容易に行えるようになり、一連のバッチ処理が可能に
データ
生成元
データ
利用先
データ生成元からの
データ収集
を行う
データ生成元からの
データ収集
を行う
大規模並列分散処理基盤
:データの流れ
© 2021 NTT DATA Corporation 26
Fluentd、 Embulkを加えた大規模並列分散処理基盤の全体像
バッチ処理の流れを行えるようになった
データ
生成元
データ
利用先
大規模並列分散処理基盤
:データの流れ
データ収集 保存と処理
複雑な処理
バッチ処理
© 2021 NTT DATA Corporation 27
Fluentd、 Embulkを加えた大規模並列分散処理基盤の全体像
一方で、ストリーム処理は…?
データ
生成元
データ
利用先
大規模並列分散処理基盤
:データの流れ
データ収集 処理
ストリーム処理
© 2021 NTT DATA Corporation 28
ストリーム処理を実現するために足りないもの
ここまでのソフトウェアでデータのリアルタイムな収集と処理は行える
後は収集されたデータを受け取り、一時的に保存するものが必要
– 要するにストリーム処理の収集と処理の間を取り持ってくれる存在が不可欠
収集 処理
この役割のものがいないと
などの状況でデータを失ってしまうなど処理が正常に行えない可能性も
一度にたくさんのデータが送られる データの送り元が大量にある
© 2021 NTT DATA Corporation 29
Apache Kafka: 逐一送られてくるデータを受け取り保存する
• スケーラブルで高速な分散メッセージングシステム
Kafkaとは
• サーバ複数台で並列に処理できる(スケーラブル)
• ディスクへの記録などデータを失いにくい仕組みを備える
Kafkaの特徴
• 逐一送られてくるデータを高速に受け取ることができる
Kafkaの登場によって実現されること
© 2021 NTT DATA Corporation 30
Kafkaを加えた大規模並列分散処理基盤の全体像
Fluentd、 Kafka、 Sparkの流れでストリーム処理が行えるようになった
大規模並列分散処理基盤
データ
生成元
データ
利用先
:データの流れ
随時送られているデータの
受信と保存
を行う
© 2021 NTT DATA Corporation 31
Kafkaを加えた大規模並列分散処理基盤の全体像
ストリーム処理の流れも行えるようになった
大規模並列分散処理基盤
データ
生成元
データ
利用先
:データの流れ
データ収集
処理
データ受信と
保存
ストリーム処理
© 2021 NTT DATA Corporation 32
Kafkaを加えた大規模並列分散処理基盤の全体像
こうしてイマドキの並列分散処理基盤の構成になった
大規模並列分散処理基盤
データ
生成元
データ
利用先
:データの流れ ストリーム処理
バッチ処理
© 2021 NTT DATA Corporation 33
登場した各ソフトウェアの役割のまとめ
大規模なデータの保存と処理(バッチ処理)を行う
大規模なデータの複雑な処理も高速に行う
[繰り返しの多い処理、機械学習、SQLによる記述、グラフ処理]
さまざまなデータソースからデータを収集する
随時送られてくるデータの受信と保存を行う
ストリーム処理も可能
© 2021 NTT DATA Corporation 34
アジェンダ
1. 並列分散処理とは
2. 大規模並列分散処理基盤を構成する要素
3. 大規模並列分散処理基盤を使いこなすために
4. Apache Bigtopのご紹介
5. NTTデータのBigtopソリューションのご紹介
6. おわりに
© 2021 NTT DATA Corporation 35
大規模並列分散処理を使いこなすために
• 従来のシステムや基盤とは異なる考え方の部分もある
• この分野の勘所を押さえたうえで利用/検討することが重要
• 大規模並列分散処理を利用するに当たり、押さえておくべき基本的なポイントを3つ紹介します
データ量/処理量が多いところで利用する
性能はサーバ台数で調整する
それぞれのプロダクトが得意な領域で利用する
© 2021 NTT DATA Corporation 36
データ量/処理量が多いところで利用する
Hadoop/Sparkはデータ量や処理量が多いことが前提
– そのように設計されている
– データ量/処理量の少ないところで利用するとかえって遅くなることも
データ量/処理量によってRDBMSの利用も検討する
– 経験上、RDBMSで処理できるデータ量や処理量はRDBMSで
– それを超える量はHadoop/Sparkで
RDBMS
Hadoop/Spark
© 2021 NTT DATA Corporation 37
性能はサーバ台数で調整する
HadoopやSparkはスケールアウトという仕組みを備えている
– 必要に応じてサーバ台数を増減させ、全体性能を調整していく
スケールアップの方式に比べて拡張が容易
– スケールアップでは性能不足になった場合、サーバの交換などを行う必要がある
– スケールアウトでは性能不足時にサーバの追加で対応できる
© 2021 NTT DATA Corporation 38
それぞれのプロダクトが得意な領域で利用する
Hadoop/Sparkは多くの処理に汎用的に使えるわけではない
– 用途を限定する代わりに高い性能を発揮するように設計されている
– 合致しない使い方ではかえって遅くなることもありうる
– RDBMSの代替ではないので適切な個所で利用する
やりたいことは事前に明確にしておく
– HadoopやSparkなどの得意な処理であるかどうかを確認する
– 処理内容や対象データの変更は基盤の設計に影響を与える場合も
© 2021 NTT DATA Corporation 39
【再掲】大規模並列分散処理を使いこなすための勘所
大規模並列分散処理を利用する際に押さえておくべきポイントを紹介
データ量/処理量が多いところで利用する
性能はサーバ台数で調整する
それぞれのプロダクトが得意な領域で利用する
© 2021 NTT DATA Corporation 40
アジェンダ
1. 並列分散処理とは
2. 大規模並列分散処理基盤を構成する要素
3. 大規模並列分散処理基盤を使いこなすために
4. Apache Bigtopのご紹介
5. NTTデータのBigtopソリューションのご紹介
6. おわりに
© 2021 NTT DATA Corporation 41
Apache Bigtop とは何か
• 公式サイト (https://bigtop.apache.org/) より
• "Bigtop is an Apache Foundation project for Infrastructure Engineers and
Data Scientists looking for comprehensive packaging, testing, and
configuration of the leading open source big data components."
• 『Bigtop は、先進的なビッグデータ関連 OSS のパッケージングやテスト、設定を探している、インフラ
エンジニアやデータサイエンティストのための Apache ソフトウェア財団のプロジェクトです。』
• 「Hadoop・Spark を中心としたデータ基盤を容易に構築するための OSS」であり、
「オープンに開発されている、無償で利用可能なHadoop・Sparkディストリビューション」
です。
© 2021 NTT DATA Corporation 42
Bigtop の歴史
2020
2019
2018
2017
2016
2015 2021/10/23
2012
2011
Cloudera社からApacheソフトウェア財団に、incubatorプロジェクトとして寄贈される
Apache incubator プロジェクトからトップレベルプロジェクトに昇格
© 2021 NTT DATA Corporation 43
Bigtop 3.0が提供するソフトウェアスタックと、サポートする動作環境
コンポーネント バージョン 説明
Alluxio 2.4.1 ストレージ仮想化
Ambari 2.7.5 クラスタ構築・管理
Elasticsearch 5.6.14 全文検索エンジン
Flink 1.11.3 ストリーム処理系
Greenplum DB 5.28.5 MPP
Hadoop 3.2.2 分散ファイルシステム・並列分散処理基盤
HBase 2.2.6 分散KVS
Hive 3.1.2 Hadoop用クエリ処理系
Kafka 2.4.1 分散メッセージングシステム
Kibana 5.4.1 検索フロントエンド・データ可視化
Livy 0.7.1 Spark用RESTゲートウェイ
Logstash 5.4.1 ログ転送
Oozie 5.2.1 ジョブスケジューラ
Phoenix 5.1.0 HBase用クエリ処理系
Solr 8.7.0 全文検索エンジン
Spark 3.0.1 並列分散処理エンジン・ストリーム処理系
コンポーネント バージョン 説明
Sqoop 1.4.7 バルクローダ
Tez 0.10.0 並列分散処理エンジン
YCSB 0.17.0 ベンチマークツール
Zeppelin 0.9.0 ノートブック
Zookeeper 3.4.14 分散ロックマネージャ
ディストリビューション x86_64 aarch64 ppc64le
CentOS 7, 8 〇 〇 〇
Fedora 33 〇 〇 〇
Debian 9, 10 〇 〇
〇
(10のみ)
Ubuntu 18.04, 20.04 〇 〇 〇
© 2021 NTT DATA Corporation 44
Bigtop 3.0の開発におけるNTTデータの貢献
JIRA issue 解決数
NTT DATA ARM State Street Wikimedia Others
85
12
2 2
5
0
5
10
15
80
85
© 2021 NTT DATA Corporation 45
BigtopによるHadoop/Sparkの導入(CentOS 7の例)
https://dlcdn.apache.org/bigtop/bigtop-3.0.0/repos/ から、
CentOS 7用のリポジトリ定義ファイルをダウンロードし、インストール
© 2021 NTT DATA Corporation 46
BigtopによるHadoop/Sparkの導入(CentOS 7の例)
$ sudo curl -sL https://dlcdn.apache.org/bigtop/bigtop-3.0.0/repos/centos-7/bigtop.repo -o
/etc/yum.repos.d/bigtop.repo # CentOS 7用のリポジトリ定義をダウンロードし、インストール
$ sudo yum update
$ sudo yum install -y java-1.8.0-openjdk-devel hadoop-hdfs-namenode hadoop-hdfs-secondarynamenode
hadoop-hdfs-datanode # HDFS関連パッケージをインストール
$ sudo vi /etc/hadoop/conf/core-site.xml
$ sudo vi /etc/hadoop/conf/hdfs-site.xml # 赤字を追加
$ sudo -u hdfs hdfs namenode –format # HDFS用の領域を初期化
$ sudo systemctl start hadoop-hdfs-namenode # HDFS関連のサービス群を起動
$ sudo systemctl start hadoop-hdfs-datanode
$ sudo systemctl start hadoop-hdfs-secondarynamenode
<configuration>
<property name="fs.defaultFS" value="hdfs://localhost:9000" />
</configuration>
<configuration>
<property name="dfs.replication" value="1" />
</configuration>
以下の手順でHDFSをインストールし、疑似分散モードで実行可能
© 2021 NTT DATA Corporation 47
BigtopによるHadoop/Sparkの導入(CentOS 7の例)
© 2021 NTT DATA Corporation 48
BigtopによるHadoop/Sparkの導入(CentOS 7の例)
$ sudo yum install -y hadoop-yarn-resourcemanager hadoop-yarn-nodemanager spark-core spark-yarn-shuffle
$ sudo systemctl start hadoop-yarn-resourcemanager
$ sudo systemctl start hadoop-yarn-nodemanager
$ sudo -u hdfs hdfs dfs -chmod go+w /
$ spark-submit --class org.apache.spark.examples.SparkPi --master yarn ¥
/usr/lib/spark/examples/jars/spark-examples.jar 1000
...
2021-10-24 14:36:31,974 INFO scheduler.DAGScheduler: Job 0 finished: reduce at SparkPi.scala:38, took
23.204865 s
Pi is roughly 3.1415052714150526
以下の手順でYARNとSparkを追加し、サンプルアプリケーションを実行
© 2021 NTT DATA Corporation 49
© 2021 NTT DATA Corporation 50
Bigtop のその他の機能
• Puppet manifest によるデプロイの自動化
• Smoke test によるクラスタ構築後の動作確認
• Docker provisioner によるローカルマシン上のコンテナへのクラスタ構築 など
• 詳しく知りたい方は、2021/8に開催された、オープンデベロッパーズカンファレンス
2021 Online (https://event.ospn.jp/odc2021-online/) の資料や動画
をご覧ください。
• https://www.slideshare.net/nttdata-tech/bigtop-hadoop-odc-2021-online-nttdata/
• https://www.youtube.com/watch?v=nkq78qJ6wl0
© 2021 NTT DATA Corporation 51
アジェンダ
1. 並列分散処理とは
2. 大規模並列分散処理基盤を構成する要素
3. 大規模並列分散処理基盤を使いこなすために
4. Apache Bigtopのご紹介
5. NTTデータのBigtopソリューションのご紹介
6. おわりに
52
© 2021 NTT DATA Corporation
データ活用基盤を提案から活用まで進められていくうえで、
さまざまな課題や不安をお聞きします。
バッチ処理の高速化を行いたいけど、
どうすればよいのだろうか
Question
Hadoop/Spark等で構成したいけど、
データ活用基盤の運用ノウハウがない
Question
短期間で高品質な基盤を構築をしたいけど、
実際できるのだろうか
Question
オンプレやプライベートクラウドで
データ活用したいけど導入方法がわからない
Question
OSS使いたいけど、サポートも対応される
ディストリビューションないだろうか
Question
Bigtopを用いての数十台から千台のデータ
活用基盤の設計構築の手法がわからない
Question
データ活用基盤の提案から活用までの課題・不安
53
© 2021 NTT DATA Corporation
Bigtopソリューションの取り組みのご紹介
現在、分散処理技術 Hadoopの検証や
実案件を通してNTTデータが得た Hadoop クラスタ設計~
初期構築~運用に関する資材・ノウハウをソリューションとして整理中です。
過去の案件実績をもとに、ほとんどのデータ活用ワークロードをカバーできる
実用かつシンプルな構成を提供
可用性、冗長化、バックアップ、運用等の設計・テスト、運用等、
これまでの経験で得たノウハウを盛りこみ
高品質・短期間のHadoopクラスタ構築(Bigtop)向けに
Ansible資材を開発中
具体的には
54
© 2021 NTT DATA Corporation
Bigtopソリューションのご紹介
Bigtopソリューションサービスでは、データ活用をご検討の方、
既存のバッチ処理の長時間化等にお困りの方に対し、
コンサルティングからPoC、システム構築、運用設計、導入後のサポートまで
幅広く提供いたします。
Bigtopソリューション サービスメニュー
企画 設計~試験 移行 運用
コンサルティングサービス 構築サービス サポートサービス
評価支援サービス
教育サービス
OSSのBigtopだけでは、実際のシステムでどのように使っていけばよいかわからないといった
疑問や課題をBigtopソリューションで解決できます
近日サービス
提供予定!
データ活用全般のコンサルやBigtop適用時に
どう進めるかについてもコンサルいたします
55
© 2021 NTT DATA Corporation
Bigtopソリューションの特長
特長1
特長3
特長2
• Hadoop/Sparkなどを組み合わせた
データ活用基盤全体のトータル技術支援
• お客様に迅速かつ高品質なデータ基盤をご提供
• 並列分散処理に長けた技術者が高度な大量データ処理を
安定運用
これまでのNTTデータの豊富な経験を活かし、
お客様がHadoop/Spark適用を検討している段階から、
データ活用基盤の検討・推進・適用・活用までお手伝いします。
十数~数千台の設計・構築経験を生かして、専門技術者がHadoopシステムの基盤設計構築を支援しま
す。Hadoopノウハウを集約したシステム基盤のひな形モデルを整備中で、
Hadoop特有の考え方、環境自動構築、特殊なノウハウが必要な運用についてもカバーしています。
Bigtop、Hadoop開発コミュニティでも活躍する技術者(コミッタ・PMCメンバ)が、
豊富な知見をもってソースコードレベルでトラブル解決し、安定運用させます。
© 2021 NTT DATA Corporation 56
アジェンダ
1. 並列分散処理とは
2. 大規模並列分散処理基盤を構成する要素
3. 大規模並列分散処理基盤を使いこなすために
4. Apache Bigtopのご紹介
5. NTTデータのBigtopソリューションのご紹介
6. おわりに
© 2021 NTT DATA Corporation 57
● NTTデータのサーバ構築・運用の実績から得られた知見・ノウハウをもとに展開するサービスです。
● 各プロダクトのソースコード解析まで可能な専門技術チームが、個別の事象だけではなく、多数のシステムから
年間数百件の問い合わせに対応し蓄積した独自ノウハウと、コミュニティの動向を踏まえた上での最適な解決策を
ご提供します。
お客様
NTTデータ
トラブル! 仕様調査
トラブル
対応依頼
技術
問合せ
解決!
回答
開発コミュニティ
(Hadoop/Spark/Kafkaなど)
フィード
バック
メリット
トラブル発生時の費用軽減
調査品質の向上、時間の短縮
トラブル発生の抑止
アセスメント、技術情報提供
安心して長く使える基盤
パッチ情報提供、コミュニティへの反映
専門
技術者チーム
Hadoop/Spark/Kafkaサポートサービス
専門技術者チームが導入後もサポートし、システムに安心・信頼を提供し続けます
Hadoop/Spark/Kafkaサポートチーム
© 2021 NTT DATA Corporation 58
チームの紹介
Hadoop/Spark/Kafkaに関するケーパビリティ
コンサルティング、アーキテクチャデザイン、構築、運用を手掛けています
These books were written by our team members.
【出版物の例】
実 績
10年以上の分散処理に関する技術支援、開発、サポートサービスの提供
100件以上のユースケース
(最大1000台ノード規模のHadoopクラスタの実績)
幅広い業界への適用
(オートモーティブ、金融、テレコム、法人、etc)
15年以上、OSSの専門家として活動しています
© 2021 NTT DATA Corporation 59
YouTubeチャンネル “NTT DATA Tech”
技 術 取り組 み、活 用 情 報 を中心にお 届けします
https://www.youtube.com/NTTDATATech
© 2021 NTT DATA Corporation 60
We‘re Hiring!(1/2)
https://nttdata.jposting.net/u/job.phtml?job_code=666
一緒に働く仲間を募集しています!
データ活用プロフェッショナル
(OSSエンジニア)<384>
こんな方を募集しています!
 NTTデータが関わる様々な案件で技術力を発揮し社会に
貢献したい方
 自らの専門性も高めながら専門家集団で働きたい方
 OSSのコミュニティ活動で世界と繋がっていきたい方、etc.
若手が中心の
活発な職場です
https://nttdata.jposting.net/u/job.phtml?job_code=755
※2021年11月現在
データ活用プロフェッショナル
(IoT基盤エンジニア)<497>
※上記写真2枚はコロナ禍前に撮影したものです。
© 2021 NTT DATA Corporation 61
We‘re Hiring!(2/2)
https://nttdata.jposting.net/u/job.phtml?job_code=766
データ活用プロフェッショナル
(DataOpsエンジニア)<498>
JDK/JVMの高難度技術課題の解決と技術開発を担う
Javaスペシャリスト<368>
https://nttdata.jposting.net/u/job.phtml?job_code=645
データベースミドルウェア
(PostgreSQL)の高度化・機能
拡充を実現する開発者<394>
https://nttdata.jposting.net/u/job.phtml?job_code=676
※2021年11月現在
一緒に働く仲間を募集しています!
© 2021 NTT DATA Corporation 62
資料中の以下の製品名およびロゴはApache Software Foundationの登録商標です。
– Apache Hadoop
– Apache Zookeeper
– Apache Spark
– Apache Hive
– Apache Kafka
– Apache HBase
– Apache Storm
– Apache Sqoop
– Apache Drill
– Apache Flink
– Apache Phoenix
– Apache Impala
– Apache Bigtop
以下の製品名およびロゴは各社・各団体の登録商標です。
– Embulk
– fluentd
– PostgreSQL
© 2021 NTT DATA Corporation

More Related Content

What's hot

本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話Kumazaki Hiroki
 
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Noritaka Sekiyama
 
Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料)
Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料)Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料)
Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料)NTT DATA Technology & Innovation
 
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
Apache Avro vs Protocol Buffers
Apache Avro vs Protocol BuffersApache Avro vs Protocol Buffers
Apache Avro vs Protocol BuffersSeiya Mizuno
 
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...NTT DATA Technology & Innovation
 
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
Dockerからcontainerdへの移行
Dockerからcontainerdへの移行Dockerからcontainerdへの移行
Dockerからcontainerdへの移行Kohei Tokunaga
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)NTT DATA OSS Professional Services
 
IoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache FlinkIoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache FlinkTakanori Suzuki
 
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理NTT DATA Technology & Innovation
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Ken SASAKI
 
フックを使ったPostgreSQLの拡張機能を作ってみよう!(第33回PostgreSQLアンカンファレンス@オンライン 発表資料)
フックを使ったPostgreSQLの拡張機能を作ってみよう!(第33回PostgreSQLアンカンファレンス@オンライン 発表資料)フックを使ったPostgreSQLの拡張機能を作ってみよう!(第33回PostgreSQLアンカンファレンス@オンライン 発表資料)
フックを使ったPostgreSQLの拡張機能を作ってみよう!(第33回PostgreSQLアンカンファレンス@オンライン 発表資料)NTT DATA Technology & Innovation
 
Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)
Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)
Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)NTT DATA Technology & Innovation
 
Dockerからcontainerdへの移行
Dockerからcontainerdへの移行Dockerからcontainerdへの移行
Dockerからcontainerdへの移行Akihiro Suda
 
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)NTT DATA Technology & Innovation
 
BuildKitの概要と最近の機能
BuildKitの概要と最近の機能BuildKitの概要と最近の機能
BuildKitの概要と最近の機能Kohei Tokunaga
 
ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方Yoshiyasu SAEKI
 
PGOを用いたPostgreSQL on Kubernetes入門(PostgreSQL Conference Japan 2022 発表資料)
PGOを用いたPostgreSQL on Kubernetes入門(PostgreSQL Conference Japan 2022 発表資料)PGOを用いたPostgreSQL on Kubernetes入門(PostgreSQL Conference Japan 2022 発表資料)
PGOを用いたPostgreSQL on Kubernetes入門(PostgreSQL Conference Japan 2022 発表資料)NTT DATA Technology & Innovation
 
PostgreSQLでスケールアウト
PostgreSQLでスケールアウトPostgreSQLでスケールアウト
PostgreSQLでスケールアウトMasahiko Sawada
 

What's hot (20)

本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話本当は恐ろしい分散システムの話
本当は恐ろしい分散システムの話
 
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
 
Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料)
Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料)Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料)
Apache Airflow 概要(Airflowの基礎を学ぶハンズオンワークショップ 発表資料)
 
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTTデータが考えるデータ基盤の次の一手 ~AI活用のために知っておくべき新潮流とは?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
Apache Avro vs Protocol Buffers
Apache Avro vs Protocol BuffersApache Avro vs Protocol Buffers
Apache Avro vs Protocol Buffers
 
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
大量のデータ処理や分析に使えるOSS Apache Sparkのご紹介(Open Source Conference 2020 Online/Kyoto ...
 
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
Dockerからcontainerdへの移行
Dockerからcontainerdへの移行Dockerからcontainerdへの移行
Dockerからcontainerdへの移行
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
 
IoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache FlinkIoT時代におけるストリームデータ処理と急成長の Apache Flink
IoT時代におけるストリームデータ処理と急成長の Apache Flink
 
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
え、まって。その並列分散処理、Kafkaのしくみでもできるの? Apache Kafkaの機能を利用した大規模ストリームデータの並列分散処理
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
 
フックを使ったPostgreSQLの拡張機能を作ってみよう!(第33回PostgreSQLアンカンファレンス@オンライン 発表資料)
フックを使ったPostgreSQLの拡張機能を作ってみよう!(第33回PostgreSQLアンカンファレンス@オンライン 発表資料)フックを使ったPostgreSQLの拡張機能を作ってみよう!(第33回PostgreSQLアンカンファレンス@オンライン 発表資料)
フックを使ったPostgreSQLの拡張機能を作ってみよう!(第33回PostgreSQLアンカンファレンス@オンライン 発表資料)
 
Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)
Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)
Grafana LokiではじめるKubernetesロギングハンズオン(NTT Tech Conference #4 ハンズオン資料)
 
Dockerからcontainerdへの移行
Dockerからcontainerdへの移行Dockerからcontainerdへの移行
Dockerからcontainerdへの移行
 
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
入門 Kubeflow ~Kubernetesで機械学習をはじめるために~ (NTT Tech Conference #4 講演資料)
 
BuildKitの概要と最近の機能
BuildKitの概要と最近の機能BuildKitの概要と最近の機能
BuildKitの概要と最近の機能
 
ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方ストリーム処理を支えるキューイングシステムの選び方
ストリーム処理を支えるキューイングシステムの選び方
 
PGOを用いたPostgreSQL on Kubernetes入門(PostgreSQL Conference Japan 2022 発表資料)
PGOを用いたPostgreSQL on Kubernetes入門(PostgreSQL Conference Japan 2022 発表資料)PGOを用いたPostgreSQL on Kubernetes入門(PostgreSQL Conference Japan 2022 発表資料)
PGOを用いたPostgreSQL on Kubernetes入門(PostgreSQL Conference Japan 2022 発表資料)
 
PostgreSQLでスケールアウト
PostgreSQLでスケールアウトPostgreSQLでスケールアウト
PostgreSQLでスケールアウト
 

Similar to Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Open Source Conference 2021 Online/Fukuoka 発表資料)

大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)NTT DATA Technology & Innovation
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)NTT DATA OSS Professional Services
 
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...NTT DATA Technology & Innovation
 
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)NTT DATA Technology & Innovation
 
Basho meetsup tokyo #4
Basho meetsup tokyo #4Basho meetsup tokyo #4
Basho meetsup tokyo #4Talend KK
 
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...NTT DATA Technology & Innovation
 
Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...
Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...
Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...NTT DATA Technology & Innovation
 
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」オラクルエンジニア通信
 
「hbstudy#23 OpenStack祭!!」資料 ~OpenStackプロジェクトの全体像~
「hbstudy#23 OpenStack祭!!」資料 ~OpenStackプロジェクトの全体像~「hbstudy#23 OpenStack祭!!」資料 ~OpenStackプロジェクトの全体像~
「hbstudy#23 OpenStack祭!!」資料 ~OpenStackプロジェクトの全体像~Masanori Itoh
 
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...NTT DATA Technology & Innovation
 
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data PlatformNaoki (Neo) SATO
 
[db tech showcase Tokyo 2015] D16:マイケルストーンブレーカー発の超高速データベースで実現する分析基盤の簡単構築・運用ステ...
[db tech showcase Tokyo 2015] D16:マイケルストーンブレーカー発の超高速データベースで実現する分析基盤の簡単構築・運用ステ...[db tech showcase Tokyo 2015] D16:マイケルストーンブレーカー発の超高速データベースで実現する分析基盤の簡単構築・運用ステ...
[db tech showcase Tokyo 2015] D16:マイケルストーンブレーカー発の超高速データベースで実現する分析基盤の簡単構築・運用ステ...Insight Technology, Inc.
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)NTT DATA OSS Professional Services
 
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)NTT DATA Technology & Innovation
 
クラウド化のコツ教えます 面倒なシステムリプレース解決事例(Oracle Cloudウェビナーシリーズ: 2021年1月20日) 株式会社データベーステ...
クラウド化のコツ教えます 面倒なシステムリプレース解決事例(Oracle Cloudウェビナーシリーズ: 2021年1月20日)  株式会社データベーステ...クラウド化のコツ教えます 面倒なシステムリプレース解決事例(Oracle Cloudウェビナーシリーズ: 2021年1月20日)  株式会社データベーステ...
クラウド化のコツ教えます 面倒なシステムリプレース解決事例(Oracle Cloudウェビナーシリーズ: 2021年1月20日) 株式会社データベーステ...オラクルエンジニア通信
 
DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)
DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)
DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)VirtualTech Japan Inc.
 
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保するDNA Data Bank of Japan center
 
スケーラブルで手間なく動かせる!もうすぐ 一般提供開始 Azure Database for MySQL / PostgreSQL
スケーラブルで手間なく動かせる!もうすぐ 一般提供開始 Azure Database for MySQL / PostgreSQLスケーラブルで手間なく動かせる!もうすぐ 一般提供開始 Azure Database for MySQL / PostgreSQL
スケーラブルで手間なく動かせる!もうすぐ 一般提供開始 Azure Database for MySQL / PostgreSQLMicrosoft Azure Japan
 

Similar to Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Open Source Conference 2021 Online/Fukuoka 発表資料) (20)

大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
大量のデータ処理や分析に使えるOSS Apache Spark入門(Open Source Conference 2021 Online/Kyoto 発表資料)
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
 
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
 
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
Spark + AI Summit 2020セッションのハイライト(Spark Meetup Tokyo #3 Online発表資料)
 
Basho meetsup tokyo #4
Basho meetsup tokyo #4Basho meetsup tokyo #4
Basho meetsup tokyo #4
 
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
大量のデータ処理や分析に使えるOSS Apache Spark入門 - Open Source Conference2020 Online/Fukuoka...
 
Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...
Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...
Spark 3.0が目指す、よりインテリジェントなUnified Analytics Platform(db tech showcase 2019 Tok...
 
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
 
「hbstudy#23 OpenStack祭!!」資料 ~OpenStackプロジェクトの全体像~
「hbstudy#23 OpenStack祭!!」資料 ~OpenStackプロジェクトの全体像~「hbstudy#23 OpenStack祭!!」資料 ~OpenStackプロジェクトの全体像~
「hbstudy#23 OpenStack祭!!」資料 ~OpenStackプロジェクトの全体像~
 
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...
 
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform
 
[db tech showcase Tokyo 2015] D16:マイケルストーンブレーカー発の超高速データベースで実現する分析基盤の簡単構築・運用ステ...
[db tech showcase Tokyo 2015] D16:マイケルストーンブレーカー発の超高速データベースで実現する分析基盤の簡単構築・運用ステ...[db tech showcase Tokyo 2015] D16:マイケルストーンブレーカー発の超高速データベースで実現する分析基盤の簡単構築・運用ステ...
[db tech showcase Tokyo 2015] D16:マイケルストーンブレーカー発の超高速データベースで実現する分析基盤の簡単構築・運用ステ...
 
Oracle Big Data SQL3.1のご紹介
Oracle Big Data SQL3.1のご紹介Oracle Big Data SQL3.1のご紹介
Oracle Big Data SQL3.1のご紹介
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
 
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
 
クラウド化のコツ教えます 面倒なシステムリプレース解決事例(Oracle Cloudウェビナーシリーズ: 2021年1月20日) 株式会社データベーステ...
クラウド化のコツ教えます 面倒なシステムリプレース解決事例(Oracle Cloudウェビナーシリーズ: 2021年1月20日)  株式会社データベーステ...クラウド化のコツ教えます 面倒なシステムリプレース解決事例(Oracle Cloudウェビナーシリーズ: 2021年1月20日)  株式会社データベーステ...
クラウド化のコツ教えます 面倒なシステムリプレース解決事例(Oracle Cloudウェビナーシリーズ: 2021年1月20日) 株式会社データベーステ...
 
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
 
DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)
DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)
DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)
 
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
[DDBJing31] 軽量仮想環境を用いてNGSデータの解析再現性を担保する
 
スケーラブルで手間なく動かせる!もうすぐ 一般提供開始 Azure Database for MySQL / PostgreSQL
スケーラブルで手間なく動かせる!もうすぐ 一般提供開始 Azure Database for MySQL / PostgreSQLスケーラブルで手間なく動かせる!もうすぐ 一般提供開始 Azure Database for MySQL / PostgreSQL
スケーラブルで手間なく動かせる!もうすぐ 一般提供開始 Azure Database for MySQL / PostgreSQL
 

More from NTT DATA Technology & Innovation

OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)
OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)
OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)NTT DATA Technology & Innovation
 
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)NTT DATA Technology & Innovation
 
Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方
Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方
Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方NTT DATA Technology & Innovation
 
Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...
Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...
Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...NTT DATA Technology & Innovation
 
Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)
Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)
Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)NTT DATA Technology & Innovation
 
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)NTT DATA Technology & Innovation
 
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...NTT DATA Technology & Innovation
 
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
 
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
 
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
 
最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)
最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)
最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)NTT DATA Technology & Innovation
 
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...NTT DATA Technology & Innovation
 
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)NTT DATA Technology & Innovation
 
機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)
機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)
機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)NTT DATA Technology & Innovation
 
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)NTT DATA Technology & Innovation
 
PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...
PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...
PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...NTT DATA Technology & Innovation
 
オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)
オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)
オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)NTT DATA Technology & Innovation
 
Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)
Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)
Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)NTT DATA Technology & Innovation
 
ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)NTT DATA Technology & Innovation
 
PGCon 2023 参加報告(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
PGCon 2023 参加報告(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)PGCon 2023 参加報告(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
PGCon 2023 参加報告(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)NTT DATA Technology & Innovation
 

More from NTT DATA Technology & Innovation (20)

OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)
OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)
OSSデータベースの開発コミュニティに参加しよう! (DEIM2024 発表資料)
 
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)
COPY FROMで異常データをスキップできるようになった話(第45回 PostgreSQLアンカンファレンス@オンライン 発表資料)
 
Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方
Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方
Cloud Skills Challenge 2023 winter 〜Azureを頑張る理由と頑張り方
 
Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...
Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...
Unlocking Transformation: Implementing GitOps Practices in Conservative Organ...
 
Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)
Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)
Databricksチューニングあれこれ(JEDAI 2023 X‘mas/忘年会 Meetup! LT登壇資料)
 
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
詳説探究!Cloud Native Databaseの現在地点(CloudNative Days Tokyo 2023 発表資料)
 
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
 
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
 
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
 
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
マネージドPostgreSQLの実現に向けたPostgreSQL機能向上(PostgreSQL Conference Japan 2023 発表資料)
 
最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)
最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)
最新機能までを総ざらい!PostgreSQLの注目機能を振り返る(第32回 中国地方DB勉強会 in 岡山 発表資料)
 
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...
 
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)
 
機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)
機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)
機械学習モデルを REST API としてサービングするシステム開発における上流プロセスの絞り込みと効果検証(PM学会2023年度秋季研究発表大会 発表資料)
 
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
 
PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...
PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...
PostgreSQL on Kubernetes: Realizing High Availability with PGO (Postgres Ibiz...
 
オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)
オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)
オンプレミス回帰の動きに備えよ ~クラウドの手法をオンプレミスでも実現するには~(CloudNative Days Fukuoka 2023 発表資料)
 
Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)
Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)
Prometheus Operator 入門(Kubernetes Novice Tokyo #26 発表資料)
 
ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
ChatGPTのデータソースにPostgreSQLを使う(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
 
PGCon 2023 参加報告(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
PGCon 2023 参加報告(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)PGCon 2023 参加報告(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
PGCon 2023 参加報告(第42回PostgreSQLアンカンファレンス@オンライン 発表資料)
 

Recently uploaded

Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 

Recently uploaded (10)

Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 

Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Open Source Conference 2021 Online/Fukuoka 発表資料)

  • 1. © 2021 NTT DATA Corporation Open Source Conference 2021 Online/Fukuoka Hadoop/Sparkを使うなら"Bigtop"を使い熟そう! ~並列分散処理基盤のいま、からBigtopの最近の取り組みまで一挙ご紹介~ 2021年11月20日 株式会社NTTデータ
  • 2. © 2021 NTT DATA Corporation 2 自己紹介 菅野 未来 Kanno、Miki NTTデータ 技術革新統括本部 システム技術本部 デジタル技術部 インテグレーション技術担当 ・入社以来、公共系大規模システムのミッションクリティカル案件に基盤技術者として従事 ・2019年度から基盤やOSSの専門チームへ社内公募で異動 経歴 現在の業務 ・OSS(Bigtop)に関する技術開発 ・基盤技術/知識を軸とした案件技術支援・OSSサポート
  • 3. © 2021 NTT DATA Corporation 3 アジェンダ 1. 並列分散処理とは 2. 大規模並列分散処理基盤を構成する要素 3. 大規模並列分散処理基盤を使いこなすために 4. Apache Bigtopのご紹介 5. NTTデータのBigtopソリューションのご紹介 6. おわりに
  • 4. © 2021 NTT DATA Corporation 4 アジェンダ 1. 並列分散処理とは 2. 大規模並列分散処理基盤を構成する要素 3. 大規模並列分散処理基盤を使いこなすために 4. Apache Bigtopのご紹介 5. NTTデータのBigtopソリューションのご紹介 6. おわりに
  • 5. © 2021 NTT DATA Corporation 5 並列分散処理とは(1/2) 並列分散処理とは – データを複数台のサーバに分散して蓄積および並列処理するための手法 – 大量のデータ(ビッグデータ)を現実的な時間(数分~数時間)で処理するために用いる 並列分散処理を用いないで(=単体のサーバで)大量のデータを処理しようとすると – データを抱えきれない – データを現実的な時間で処理できない オープンソースの世界では、大規模並列分散処理フレームワークとしてApache Hadoopが誕生
  • 6. © 2021 NTT DATA Corporation 6 並列分散処理とは(2/2) 初期のHadoopの適用領域は以下のようなイメージ しかし、最近では・・・ 秒 分 時間 日 処 理 の レ イ テ ン シ バッチ処理 リアルタイム処理 データサイズ 少ない 多い オンライン処理 汎用検索 GB(ギガバイト) TB(テラバイト) PB(ペタバイト) TB(テラバイト) オンバッチ処理 純バッチ処理 RDBMSの適用領域 Hadoopの適用領域
  • 7. © 2021 NTT DATA Corporation 7 大規模並列分散処理の現状 ソフトウェアの進化とともにユースケースも増えてきている また、Hadoopの成功を受けて、多くのプロダクトが登場した →複雑で理解しづらくなっている このほかにも書ききれなかったものがたくさん…
  • 8. © 2021 NTT DATA Corporation 8 本日の前半のおはなし 本日の前半では、そんな大規模並列分散処理の “イマドキ” についてお伝えします どんな 組み合わせで 使えばいいのか どう 使えばいいのか 上手に 利用するには 数あるプロダクトの中でも 代表的なものを例にご紹介 複数データセンタで 利用するには
  • 9. © 2021 NTT DATA Corporation 9 アジェンダ 1. 並列分散処理とは 2. 大規模並列分散処理基盤を構成する要素 3. 大規模並列分散処理基盤を使いこなすために 4. Apache Bigtopのご紹介 5. NTTデータのBigtopソリューションのご紹介 6. おわりに
  • 10. © 2021 NTT DATA Corporation 10 大規模並列分散処理で行われる処理方式 • バッチ処理 • ストリーム処理 保存 データ 生成元 処理 データ 利用先 データを貯めて まとめて処理 データ 生成元 データ 利用先 処理 受信 データを受け取って すぐに処理
  • 11. © 2021 NTT DATA Corporation 11 大規模並列分散処理で行われる処理方式 バッチ処理: ビッグデータ活用黎明期からの活用スタイル まとまった大規模なデータを効率よく処理 • データ生成元の例 – システムのDB – ファイルサーバ • 活用例 – 長期的なデータを対象とした分析 – 旧来システムのバッチ処理高速化、オフロード 保存 データ 生成元 処理 データ 利用先 データを貯めて まとめて処理
  • 12. © 2021 NTT DATA Corporation 12 大規模並列分散処理で行われる処理方式 ストリーム処理: 近年利用が進んでいる活用スタイル 細かく数の多いデータをリアルタイムに処理 • データ生成元の例 – モバイルアプリ、Webアプリ(アプリケーションのログ) – IoT機器(センサーログ) • 活用例 – ユーザー行動のリアルタイムな把握、リアルタイムなマーケティング – 機器の異常検知 データ 生成元 データ 利用先 処理 受信 データを受け取って すぐに処理
  • 13. © 2021 NTT DATA Corporation 13 大規模並列分散処理で行われる処理方式 どちらの方式が優れているということではなく、目的に応じて適材適所で用いる バッチ処理: ストリーム処理: 保存 データ 生成元 処理 データ 利用先 データを貯めて まとめて処理 データ 生成元 データ 利用先 処理 受信 データを受け取って すぐに処理
  • 14. © 2021 NTT DATA Corporation 14 イマドキの大規模並列分散処理基盤 バッチ処理、ストリーム処理の両方に必要な機能を満たせる 大規模並列分散処理基盤 データ 生成元 データ 利用先 :データの流れ 収集 保存 処理
  • 15. © 2021 NTT DATA Corporation 15 イマドキの大規模並列分散処理基盤 バッチ処理、ストリーム処理の両方に必要な機能を満たせる 大規模並列分散処理基盤 データ 生成元 データ 利用先 :データの流れ 収集 保存 処理 バッチ処理
  • 16. © 2021 NTT DATA Corporation 16 イマドキの大規模並列分散処理基盤 バッチ処理、ストリーム処理の両方に必要な機能を満たせる 大規模並列分散処理基盤 データ 生成元 データ 利用先 :データの流れ 収集 保存 処理 ストリーム処理
  • 17. © 2021 NTT DATA Corporation 17 イマドキの大規模並列分散処理基盤 バッチ処理、ストリーム処理の両方に必要な機能を満たせる 大規模並列分散処理基盤 データ 生成元 データ 利用先 :データの流れ 収集 保存 処理 バッチ処理
  • 18. © 2021 NTT DATA Corporation 18 Apache Hadoop: すべてはここからはじまった • 大規模データのための並列分散処理フレームワーク • 複数台の汎用サーバを使い、全体で大きな問題を解かせる Hadoopとは • 大規模なデータの保存と処理を並列分散処理に適した方法で行う Hadoopが果たしてくれる役割 • 現実的なコストで並列分散処理を行えるようになった Hadoopの登場で実現したこと
  • 19. © 2021 NTT DATA Corporation 19 Hadoopが登場した後の大規模並列処理基盤の全体像 大規模データの保存と処理が行えるようになった 大規模並列分散処理基盤 データ 生成元 データ 利用先 :データの流れ データを 保存 して そのデータを 処理 する
  • 20. © 2021 NTT DATA Corporation 20 Hadoopのコンセプトと弱点 コンセプトは複数台のサーバのディスクを効率よく利用すること ただしHadoop MapReduceはその仕組み上、繰り返しの多い処理・複雑な処理が苦手 – 1つのMapReduceジョブ(処理単位)で実現できることは単純 ⇒複雑な処理を実装するには、MapReduceジョブの組み合わせで実現 – MapReduceジョブの都度ディスクの読み書きが発生 ・・・ 複数台のサーバで 処理を分担する ディスクの性能を 最大限に発揮させ、 スループットを最大化 ディスクの読み書きはコンピュータ処理で 最も時間のかかる操作の1つ
  • 21. © 2021 NTT DATA Corporation 21 Apache Spark: 複雑な処理も高速に • 大規模データのための並列分散処理フレームワーク • 複数台の汎用サーバを使い、全体で大きな問題を解かせる Sparkとは • メモリ/CPU/ディスクなどのリソースを効率的に利用 • SQLによる記述、機械学習、ストリーム処理 などの並列分散処理で頻出の処理のライブラリを内包 Sparkの特徴 • 複雑な処理も高速に処理することができる • 豊富なライブラリや高級APIが付属し、複雑な処理も容易に実装できる Sparkの登場で実現したこと
  • 22. © 2021 NTT DATA Corporation 22 Sparkを加えた大規模並列分散処理基盤の全体像 大規模データの複雑な処理を行えるようになった データ 生成元 データ 利用先 複雑な処理 でも 高速に処理 する 大規模並列分散処理基盤 :データの流れ
  • 23. © 2021 NTT DATA Corporation 23 Hadoopの課題はまだ存在した Hadoopにデータを入れること これまでは個別に対応してきたが、コストが高い この部分 前項の スライド
  • 24. © 2021 NTT DATA Corporation 24 Fluentd/Embulk: どこからどこへでもデータを転送 • データ収集基盤ミドルウェア Fluentd/Embulkとは • データの入出力側がプラグイン式になっており、簡単な開発で あらゆるデータ入出力に対応できる Fluentd/Embulkの特徴 • 生成元から容易にデータを集めてくることができる Fluentd/Embulkの登場によって実現されること ストリーム処理 向き バッチ処理 向き
  • 25. © 2021 NTT DATA Corporation 25 Fluentd、 Embulkを加えた大規模並列分散処理基盤の全体像 データの収集が容易に行えるようになり、一連のバッチ処理が可能に データ 生成元 データ 利用先 データ生成元からの データ収集 を行う データ生成元からの データ収集 を行う 大規模並列分散処理基盤 :データの流れ
  • 26. © 2021 NTT DATA Corporation 26 Fluentd、 Embulkを加えた大規模並列分散処理基盤の全体像 バッチ処理の流れを行えるようになった データ 生成元 データ 利用先 大規模並列分散処理基盤 :データの流れ データ収集 保存と処理 複雑な処理 バッチ処理
  • 27. © 2021 NTT DATA Corporation 27 Fluentd、 Embulkを加えた大規模並列分散処理基盤の全体像 一方で、ストリーム処理は…? データ 生成元 データ 利用先 大規模並列分散処理基盤 :データの流れ データ収集 処理 ストリーム処理
  • 28. © 2021 NTT DATA Corporation 28 ストリーム処理を実現するために足りないもの ここまでのソフトウェアでデータのリアルタイムな収集と処理は行える 後は収集されたデータを受け取り、一時的に保存するものが必要 – 要するにストリーム処理の収集と処理の間を取り持ってくれる存在が不可欠 収集 処理 この役割のものがいないと などの状況でデータを失ってしまうなど処理が正常に行えない可能性も 一度にたくさんのデータが送られる データの送り元が大量にある
  • 29. © 2021 NTT DATA Corporation 29 Apache Kafka: 逐一送られてくるデータを受け取り保存する • スケーラブルで高速な分散メッセージングシステム Kafkaとは • サーバ複数台で並列に処理できる(スケーラブル) • ディスクへの記録などデータを失いにくい仕組みを備える Kafkaの特徴 • 逐一送られてくるデータを高速に受け取ることができる Kafkaの登場によって実現されること
  • 30. © 2021 NTT DATA Corporation 30 Kafkaを加えた大規模並列分散処理基盤の全体像 Fluentd、 Kafka、 Sparkの流れでストリーム処理が行えるようになった 大規模並列分散処理基盤 データ 生成元 データ 利用先 :データの流れ 随時送られているデータの 受信と保存 を行う
  • 31. © 2021 NTT DATA Corporation 31 Kafkaを加えた大規模並列分散処理基盤の全体像 ストリーム処理の流れも行えるようになった 大規模並列分散処理基盤 データ 生成元 データ 利用先 :データの流れ データ収集 処理 データ受信と 保存 ストリーム処理
  • 32. © 2021 NTT DATA Corporation 32 Kafkaを加えた大規模並列分散処理基盤の全体像 こうしてイマドキの並列分散処理基盤の構成になった 大規模並列分散処理基盤 データ 生成元 データ 利用先 :データの流れ ストリーム処理 バッチ処理
  • 33. © 2021 NTT DATA Corporation 33 登場した各ソフトウェアの役割のまとめ 大規模なデータの保存と処理(バッチ処理)を行う 大規模なデータの複雑な処理も高速に行う [繰り返しの多い処理、機械学習、SQLによる記述、グラフ処理] さまざまなデータソースからデータを収集する 随時送られてくるデータの受信と保存を行う ストリーム処理も可能
  • 34. © 2021 NTT DATA Corporation 34 アジェンダ 1. 並列分散処理とは 2. 大規模並列分散処理基盤を構成する要素 3. 大規模並列分散処理基盤を使いこなすために 4. Apache Bigtopのご紹介 5. NTTデータのBigtopソリューションのご紹介 6. おわりに
  • 35. © 2021 NTT DATA Corporation 35 大規模並列分散処理を使いこなすために • 従来のシステムや基盤とは異なる考え方の部分もある • この分野の勘所を押さえたうえで利用/検討することが重要 • 大規模並列分散処理を利用するに当たり、押さえておくべき基本的なポイントを3つ紹介します データ量/処理量が多いところで利用する 性能はサーバ台数で調整する それぞれのプロダクトが得意な領域で利用する
  • 36. © 2021 NTT DATA Corporation 36 データ量/処理量が多いところで利用する Hadoop/Sparkはデータ量や処理量が多いことが前提 – そのように設計されている – データ量/処理量の少ないところで利用するとかえって遅くなることも データ量/処理量によってRDBMSの利用も検討する – 経験上、RDBMSで処理できるデータ量や処理量はRDBMSで – それを超える量はHadoop/Sparkで RDBMS Hadoop/Spark
  • 37. © 2021 NTT DATA Corporation 37 性能はサーバ台数で調整する HadoopやSparkはスケールアウトという仕組みを備えている – 必要に応じてサーバ台数を増減させ、全体性能を調整していく スケールアップの方式に比べて拡張が容易 – スケールアップでは性能不足になった場合、サーバの交換などを行う必要がある – スケールアウトでは性能不足時にサーバの追加で対応できる
  • 38. © 2021 NTT DATA Corporation 38 それぞれのプロダクトが得意な領域で利用する Hadoop/Sparkは多くの処理に汎用的に使えるわけではない – 用途を限定する代わりに高い性能を発揮するように設計されている – 合致しない使い方ではかえって遅くなることもありうる – RDBMSの代替ではないので適切な個所で利用する やりたいことは事前に明確にしておく – HadoopやSparkなどの得意な処理であるかどうかを確認する – 処理内容や対象データの変更は基盤の設計に影響を与える場合も
  • 39. © 2021 NTT DATA Corporation 39 【再掲】大規模並列分散処理を使いこなすための勘所 大規模並列分散処理を利用する際に押さえておくべきポイントを紹介 データ量/処理量が多いところで利用する 性能はサーバ台数で調整する それぞれのプロダクトが得意な領域で利用する
  • 40. © 2021 NTT DATA Corporation 40 アジェンダ 1. 並列分散処理とは 2. 大規模並列分散処理基盤を構成する要素 3. 大規模並列分散処理基盤を使いこなすために 4. Apache Bigtopのご紹介 5. NTTデータのBigtopソリューションのご紹介 6. おわりに
  • 41. © 2021 NTT DATA Corporation 41 Apache Bigtop とは何か • 公式サイト (https://bigtop.apache.org/) より • "Bigtop is an Apache Foundation project for Infrastructure Engineers and Data Scientists looking for comprehensive packaging, testing, and configuration of the leading open source big data components." • 『Bigtop は、先進的なビッグデータ関連 OSS のパッケージングやテスト、設定を探している、インフラ エンジニアやデータサイエンティストのための Apache ソフトウェア財団のプロジェクトです。』 • 「Hadoop・Spark を中心としたデータ基盤を容易に構築するための OSS」であり、 「オープンに開発されている、無償で利用可能なHadoop・Sparkディストリビューション」 です。
  • 42. © 2021 NTT DATA Corporation 42 Bigtop の歴史 2020 2019 2018 2017 2016 2015 2021/10/23 2012 2011 Cloudera社からApacheソフトウェア財団に、incubatorプロジェクトとして寄贈される Apache incubator プロジェクトからトップレベルプロジェクトに昇格
  • 43. © 2021 NTT DATA Corporation 43 Bigtop 3.0が提供するソフトウェアスタックと、サポートする動作環境 コンポーネント バージョン 説明 Alluxio 2.4.1 ストレージ仮想化 Ambari 2.7.5 クラスタ構築・管理 Elasticsearch 5.6.14 全文検索エンジン Flink 1.11.3 ストリーム処理系 Greenplum DB 5.28.5 MPP Hadoop 3.2.2 分散ファイルシステム・並列分散処理基盤 HBase 2.2.6 分散KVS Hive 3.1.2 Hadoop用クエリ処理系 Kafka 2.4.1 分散メッセージングシステム Kibana 5.4.1 検索フロントエンド・データ可視化 Livy 0.7.1 Spark用RESTゲートウェイ Logstash 5.4.1 ログ転送 Oozie 5.2.1 ジョブスケジューラ Phoenix 5.1.0 HBase用クエリ処理系 Solr 8.7.0 全文検索エンジン Spark 3.0.1 並列分散処理エンジン・ストリーム処理系 コンポーネント バージョン 説明 Sqoop 1.4.7 バルクローダ Tez 0.10.0 並列分散処理エンジン YCSB 0.17.0 ベンチマークツール Zeppelin 0.9.0 ノートブック Zookeeper 3.4.14 分散ロックマネージャ ディストリビューション x86_64 aarch64 ppc64le CentOS 7, 8 〇 〇 〇 Fedora 33 〇 〇 〇 Debian 9, 10 〇 〇 〇 (10のみ) Ubuntu 18.04, 20.04 〇 〇 〇
  • 44. © 2021 NTT DATA Corporation 44 Bigtop 3.0の開発におけるNTTデータの貢献 JIRA issue 解決数 NTT DATA ARM State Street Wikimedia Others 85 12 2 2 5 0 5 10 15 80 85
  • 45. © 2021 NTT DATA Corporation 45 BigtopによるHadoop/Sparkの導入(CentOS 7の例) https://dlcdn.apache.org/bigtop/bigtop-3.0.0/repos/ から、 CentOS 7用のリポジトリ定義ファイルをダウンロードし、インストール
  • 46. © 2021 NTT DATA Corporation 46 BigtopによるHadoop/Sparkの導入(CentOS 7の例) $ sudo curl -sL https://dlcdn.apache.org/bigtop/bigtop-3.0.0/repos/centos-7/bigtop.repo -o /etc/yum.repos.d/bigtop.repo # CentOS 7用のリポジトリ定義をダウンロードし、インストール $ sudo yum update $ sudo yum install -y java-1.8.0-openjdk-devel hadoop-hdfs-namenode hadoop-hdfs-secondarynamenode hadoop-hdfs-datanode # HDFS関連パッケージをインストール $ sudo vi /etc/hadoop/conf/core-site.xml $ sudo vi /etc/hadoop/conf/hdfs-site.xml # 赤字を追加 $ sudo -u hdfs hdfs namenode –format # HDFS用の領域を初期化 $ sudo systemctl start hadoop-hdfs-namenode # HDFS関連のサービス群を起動 $ sudo systemctl start hadoop-hdfs-datanode $ sudo systemctl start hadoop-hdfs-secondarynamenode <configuration> <property name="fs.defaultFS" value="hdfs://localhost:9000" /> </configuration> <configuration> <property name="dfs.replication" value="1" /> </configuration> 以下の手順でHDFSをインストールし、疑似分散モードで実行可能
  • 47. © 2021 NTT DATA Corporation 47 BigtopによるHadoop/Sparkの導入(CentOS 7の例)
  • 48. © 2021 NTT DATA Corporation 48 BigtopによるHadoop/Sparkの導入(CentOS 7の例) $ sudo yum install -y hadoop-yarn-resourcemanager hadoop-yarn-nodemanager spark-core spark-yarn-shuffle $ sudo systemctl start hadoop-yarn-resourcemanager $ sudo systemctl start hadoop-yarn-nodemanager $ sudo -u hdfs hdfs dfs -chmod go+w / $ spark-submit --class org.apache.spark.examples.SparkPi --master yarn ¥ /usr/lib/spark/examples/jars/spark-examples.jar 1000 ... 2021-10-24 14:36:31,974 INFO scheduler.DAGScheduler: Job 0 finished: reduce at SparkPi.scala:38, took 23.204865 s Pi is roughly 3.1415052714150526 以下の手順でYARNとSparkを追加し、サンプルアプリケーションを実行
  • 49. © 2021 NTT DATA Corporation 49
  • 50. © 2021 NTT DATA Corporation 50 Bigtop のその他の機能 • Puppet manifest によるデプロイの自動化 • Smoke test によるクラスタ構築後の動作確認 • Docker provisioner によるローカルマシン上のコンテナへのクラスタ構築 など • 詳しく知りたい方は、2021/8に開催された、オープンデベロッパーズカンファレンス 2021 Online (https://event.ospn.jp/odc2021-online/) の資料や動画 をご覧ください。 • https://www.slideshare.net/nttdata-tech/bigtop-hadoop-odc-2021-online-nttdata/ • https://www.youtube.com/watch?v=nkq78qJ6wl0
  • 51. © 2021 NTT DATA Corporation 51 アジェンダ 1. 並列分散処理とは 2. 大規模並列分散処理基盤を構成する要素 3. 大規模並列分散処理基盤を使いこなすために 4. Apache Bigtopのご紹介 5. NTTデータのBigtopソリューションのご紹介 6. おわりに
  • 52. 52 © 2021 NTT DATA Corporation データ活用基盤を提案から活用まで進められていくうえで、 さまざまな課題や不安をお聞きします。 バッチ処理の高速化を行いたいけど、 どうすればよいのだろうか Question Hadoop/Spark等で構成したいけど、 データ活用基盤の運用ノウハウがない Question 短期間で高品質な基盤を構築をしたいけど、 実際できるのだろうか Question オンプレやプライベートクラウドで データ活用したいけど導入方法がわからない Question OSS使いたいけど、サポートも対応される ディストリビューションないだろうか Question Bigtopを用いての数十台から千台のデータ 活用基盤の設計構築の手法がわからない Question データ活用基盤の提案から活用までの課題・不安
  • 53. 53 © 2021 NTT DATA Corporation Bigtopソリューションの取り組みのご紹介 現在、分散処理技術 Hadoopの検証や 実案件を通してNTTデータが得た Hadoop クラスタ設計~ 初期構築~運用に関する資材・ノウハウをソリューションとして整理中です。 過去の案件実績をもとに、ほとんどのデータ活用ワークロードをカバーできる 実用かつシンプルな構成を提供 可用性、冗長化、バックアップ、運用等の設計・テスト、運用等、 これまでの経験で得たノウハウを盛りこみ 高品質・短期間のHadoopクラスタ構築(Bigtop)向けに Ansible資材を開発中 具体的には
  • 54. 54 © 2021 NTT DATA Corporation Bigtopソリューションのご紹介 Bigtopソリューションサービスでは、データ活用をご検討の方、 既存のバッチ処理の長時間化等にお困りの方に対し、 コンサルティングからPoC、システム構築、運用設計、導入後のサポートまで 幅広く提供いたします。 Bigtopソリューション サービスメニュー 企画 設計~試験 移行 運用 コンサルティングサービス 構築サービス サポートサービス 評価支援サービス 教育サービス OSSのBigtopだけでは、実際のシステムでどのように使っていけばよいかわからないといった 疑問や課題をBigtopソリューションで解決できます 近日サービス 提供予定! データ活用全般のコンサルやBigtop適用時に どう進めるかについてもコンサルいたします
  • 55. 55 © 2021 NTT DATA Corporation Bigtopソリューションの特長 特長1 特長3 特長2 • Hadoop/Sparkなどを組み合わせた データ活用基盤全体のトータル技術支援 • お客様に迅速かつ高品質なデータ基盤をご提供 • 並列分散処理に長けた技術者が高度な大量データ処理を 安定運用 これまでのNTTデータの豊富な経験を活かし、 お客様がHadoop/Spark適用を検討している段階から、 データ活用基盤の検討・推進・適用・活用までお手伝いします。 十数~数千台の設計・構築経験を生かして、専門技術者がHadoopシステムの基盤設計構築を支援しま す。Hadoopノウハウを集約したシステム基盤のひな形モデルを整備中で、 Hadoop特有の考え方、環境自動構築、特殊なノウハウが必要な運用についてもカバーしています。 Bigtop、Hadoop開発コミュニティでも活躍する技術者(コミッタ・PMCメンバ)が、 豊富な知見をもってソースコードレベルでトラブル解決し、安定運用させます。
  • 56. © 2021 NTT DATA Corporation 56 アジェンダ 1. 並列分散処理とは 2. 大規模並列分散処理基盤を構成する要素 3. 大規模並列分散処理基盤を使いこなすために 4. Apache Bigtopのご紹介 5. NTTデータのBigtopソリューションのご紹介 6. おわりに
  • 57. © 2021 NTT DATA Corporation 57 ● NTTデータのサーバ構築・運用の実績から得られた知見・ノウハウをもとに展開するサービスです。 ● 各プロダクトのソースコード解析まで可能な専門技術チームが、個別の事象だけではなく、多数のシステムから 年間数百件の問い合わせに対応し蓄積した独自ノウハウと、コミュニティの動向を踏まえた上での最適な解決策を ご提供します。 お客様 NTTデータ トラブル! 仕様調査 トラブル 対応依頼 技術 問合せ 解決! 回答 開発コミュニティ (Hadoop/Spark/Kafkaなど) フィード バック メリット トラブル発生時の費用軽減 調査品質の向上、時間の短縮 トラブル発生の抑止 アセスメント、技術情報提供 安心して長く使える基盤 パッチ情報提供、コミュニティへの反映 専門 技術者チーム Hadoop/Spark/Kafkaサポートサービス 専門技術者チームが導入後もサポートし、システムに安心・信頼を提供し続けます Hadoop/Spark/Kafkaサポートチーム
  • 58. © 2021 NTT DATA Corporation 58 チームの紹介 Hadoop/Spark/Kafkaに関するケーパビリティ コンサルティング、アーキテクチャデザイン、構築、運用を手掛けています These books were written by our team members. 【出版物の例】 実 績 10年以上の分散処理に関する技術支援、開発、サポートサービスの提供 100件以上のユースケース (最大1000台ノード規模のHadoopクラスタの実績) 幅広い業界への適用 (オートモーティブ、金融、テレコム、法人、etc) 15年以上、OSSの専門家として活動しています
  • 59. © 2021 NTT DATA Corporation 59 YouTubeチャンネル “NTT DATA Tech” 技 術 取り組 み、活 用 情 報 を中心にお 届けします https://www.youtube.com/NTTDATATech
  • 60. © 2021 NTT DATA Corporation 60 We‘re Hiring!(1/2) https://nttdata.jposting.net/u/job.phtml?job_code=666 一緒に働く仲間を募集しています! データ活用プロフェッショナル (OSSエンジニア)<384> こんな方を募集しています!  NTTデータが関わる様々な案件で技術力を発揮し社会に 貢献したい方  自らの専門性も高めながら専門家集団で働きたい方  OSSのコミュニティ活動で世界と繋がっていきたい方、etc. 若手が中心の 活発な職場です https://nttdata.jposting.net/u/job.phtml?job_code=755 ※2021年11月現在 データ活用プロフェッショナル (IoT基盤エンジニア)<497> ※上記写真2枚はコロナ禍前に撮影したものです。
  • 61. © 2021 NTT DATA Corporation 61 We‘re Hiring!(2/2) https://nttdata.jposting.net/u/job.phtml?job_code=766 データ活用プロフェッショナル (DataOpsエンジニア)<498> JDK/JVMの高難度技術課題の解決と技術開発を担う Javaスペシャリスト<368> https://nttdata.jposting.net/u/job.phtml?job_code=645 データベースミドルウェア (PostgreSQL)の高度化・機能 拡充を実現する開発者<394> https://nttdata.jposting.net/u/job.phtml?job_code=676 ※2021年11月現在 一緒に働く仲間を募集しています!
  • 62. © 2021 NTT DATA Corporation 62 資料中の以下の製品名およびロゴはApache Software Foundationの登録商標です。 – Apache Hadoop – Apache Zookeeper – Apache Spark – Apache Hive – Apache Kafka – Apache HBase – Apache Storm – Apache Sqoop – Apache Drill – Apache Flink – Apache Phoenix – Apache Impala – Apache Bigtop 以下の製品名およびロゴは各社・各団体の登録商標です。 – Embulk – fluentd – PostgreSQL
  • 63. © 2021 NTT DATA Corporation