AI・HPC・ビッグデータで利用される分散ファイルシステムを知る

AI・HPC・ビッグデータで利用される
分散ファイルシステムって何？
日本ヒューレットパッカード株式会社
HPE認定オープンソース・Linuxテクノロジーエバンジェリスト／Hadoop(CCAH)認定技術者
古賀政純 @masazumi_koga
2020年10月
Hadoopクラスター構築実践ガイド著者が語る
1

古賀政純の実践ガイドシリーズ
最先端オープンソース書籍出版の取り組み
コンテナや
OSSの
自動配備
IT資源管理
の自動化
クラウド
構築手順
ステップバ
イステップで
徹底解説
OS部門1位
AmazonJP
ランキング
OS部門1位
AmazonJP
新着
ランキング
OS部門2位
AmazonJP
ランキング
機械学習
ビッグデータ
基盤構築
具体例満載
AmazonJP
新着
ランキング
OS部門2位
2

•HPEグローバルでHadoop/AI基盤の情報交換
•市場動向等をタイムリーにお届け
古賀政純の「ビッグデータ・AI最前線」シリーズ
HPEにおけるビッグデータ・AI on HPE Apollo情報提供の取り組み
Hadoop認定技術者
MapRイベント登壇
CIO/IT部門長向け
満員御礼！
Hadoopイベント登壇
最新情報提供
満員御礼！
日経記事登場
最先端AI/GPU
コンピューティング
人工知能学会
登壇
3

機械学習とビッグデータを知る
最先端オープンソース書籍出版への取り組み
AI時代に必携の一冊！
機械学習・ビッグデータ基盤導入検討・構築・使用法・応用例等
 Apache Hadoop 3と商用版MapR 6クラスター構築、使用法
 機械学習, ニューラルネットワークの具体例
 データベースとの連携, ETLツール
 RDBMS, ログ, Twitterデータの取得等
• Bigdata分析基盤の概要
• Hadoopの種類、沿革、システム構成
• Apache Hadoop 3の特徴
• Hadoopシステム構成、導入前検討項目
• ハードウェアコンポーネントの検討
• Hadoop 3, MapR 6クラスターハードウェア構成例
• Hadoopクラウド
• ハードウェアの設定
• Hadoop 3, MapR 6クラスターのインストール
• Hadoop 3, MapR 6クラスターの運用管理
• Spark SQL, Spark Streaming, Spark GraphX, Spark R, Spark MLlib
• ニューラルネットワーク
• Hive, Impala, HBase, Pig
• Sqoop, Flume
• Mahout
Amazon
インプレス
フライトデータ分析、
迷惑メール分類、
おすすめ映画タイトルの
表示など、機械学習の
具体例を掲載！
Hadoop 3と MapR 6を
解説した世界初の本！
4

分散ファイルシステムの概要
とそれが必要とされる背景
5

分散ファイルシステムって？
–分散ファイルシステムとは、ネットワークファイルシステムの一種であり、
単一のファイルシステムが複数の物理コンピュータノードに分散して存
在する形態のものを指す。
–Wikipediaより
FileSystem
File FileFile FileFile
複数の物理コンピュータノード
クライアントから見ると．．．
6

例：x86サーバー
OS
FileSystem
OS
FileSystem
OS
FileSystem
通常のファイルシステムと分散ファイルシステムの比較
OS
FileSystem
File File File
Distributed FileSystem
File FileFile FileFile
例：Linux/HP-UX/Windows/etc
例：ext2/ext3/ext4/XFS/FAT/NTFS/etc
分散ファイルシステム
HPE Apollo 4200
HPE Apollo 4200 HPE Apollo 4200 HPE Apollo 4200 7

分散ファイルシステムが必要とされる背景
– 中、低価格で大量の高速演算処理やデータアクセスの実行に対するニーズが高まっている
– HW構成は、x86サーバを大量に並列に並べたクラスタシステム
• スケールアップ
− 高価になりがち
− 性能向上に制約
− 拡張性にも制約
− 管理簡潔
− 個体での耐障害性優秀
• スケールアウト
− 中、低価格で押えられる
− スケーラブルな性能向上
− 拡張性もスケーラブル
− 管理の簡素化の考慮が必要
− 耐障害性の実装が必須
8

分散ファイルシステムが必要とされる背景
–データのニーズが年々高まり、それにつれて要求されるストレージ容量もテラバイト級
からペタバイト・エクサバイト級といった具合に指数関数的に増えている
– 高速演算（HPC）、Webインデックス作成、ログ解析、機械学習・AI、データマイニング等
0
100
200
300
400
500
600
700
800
900
1000
GB TB
PB
EB
通常のファイルシステムやシステムのス
ケールアップなどの既存の技術では、
コスト
性能
容量
などのニーズを満たしきれなくなってきて
いるというのが「現実」
需要は伸びる一方
9

Hadoopにおける
10

Hadoopって？
–GFS(google file system)とMapReduceとBigTableのオープンソース版
–Hadoopの由来は，開発者Doug氏の子供の黄色い象のぬいぐるみの名前
–http://hadoop.apache.org/core/
11

Hadoopの概要
–拡張性
–ペタバイト級データを格納、処理するためのフレームワーク
–経済性
–業界標準サーバーを利用
–効率性
–効率的な並列処理による高性能
–信頼性
–自動的にデータの複数コピーを作成する事で高信頼性を確保
–データを細かなブロックに分散し、複製する
–HWの故障を前提に設計
–各々のノードがデータの一部を保存
12

Hadoopの概要 - 構成要素
–“HDFS(Hadoop Distributed File System)”
–分散ファイルシステム
–Java実装、オープンソース
–“Hadoop Map/Reduce”
–分散処理フレームワーク
–Java実装、オープンソース
HDFS
MapReduce
13

Hadoopの構成例
NameNode DataNode
クライアントクライアント
DataNode DataNode DataNode DataNode DataNode
Block １ Block 2 Block 3 Block １ Block 2
Block １ Block 2 Block 3 Block １ Block 2
Block １ Block 2 Block 3 Block 1 Block 2
Block 3
Block 3
Block 3
ファイル
Rack1 Rack2
処理
ファイルは、ブロックに分割され、
それぞれレプリケーションされる。
14

Hadoopのアーキテクチャ概要
HadoopのDataNode
Data
data data data data
data data data data
data data data data
data data data data
data data data data
data data data data
data data data data
data data data data
DFS Block1
DFS Block1
DFS Block1
DFS Block2
DFS Block2
DFS Block2
DFS Block3
DFS Block3
DFS Block3
Map
Map
Map
Reduce
data data data data
data data data data
data data data data
data data data data
data data data data
data data data data
data data data data
data data data data
15
Result

Hadoopの重要な概念
–Hadoop
–並列分散型のジョブやタスクを実行
–データを分散ファイルシステムに保存
–MapReduce
–Hadoop上で実行するプログラムが採用しているプログラミングスタイル
–入力が複数に分割され、独立して処理される(Map部分)
–個々の処理の結果がグループとして集められ処理される(Reduce部分)
–Job
–一つのMapReduceプログラムを実行するために必要なクラスやライブラリを集めたもの
–通常は１つのjarファイルとして集められ、「Jobファイル」とも呼ばれる
–Jobを実行するには、ResourceManagerにjobをsubmitする
16

Hadoopの重要な概念
–Task
–個々のMapやReduceの処理を実行するプログラム
–NodeManagerが稼働するDataNodeノード上で実行される
–HDFS
–Hadoop Distributed File System
–Hadoopプログラムのinputとoutputファイルを格納する方法
–主要な利点: input/outputが高速
–高帯域幅
–Taskはinputデータの近くに置かれ、outputデータは作成された場所に置かれる
–１つのNameNodeと1つ以上のDataNodeインスタンスで構成される
17

Hadoopのアーキテクチャ：HDFS
Rack
Rack
DataNode
ブロック
DataNode
ブロック
DataNode
ブロック
heartbeat
クライアント
SecondaryNameNod
e
トランザクションの
チェックポイント処理
NameNode
メタデータ
- ファイル/ブロック/DataNodeのリスト
- ファイル/レプリケーション属性
トランザクションログ
レプリケーション
checksum
checksum
checksum
ユーザインターフェース
Java/C/HTTP
DFSSell(コマンドライン)
Hadoopクラスター
元データファイル
データ転送(read/write)
データ操作
ブロック
ブロック
ブロック
ブロック
checksum
ブロック
checksum
ブロック
checksum
ノードの状態確認
18

Hadoopのアーキテクチャ： Hadoop MapReduce
DataNode
クライアント
NameNode
ブロック
ブロック
元データファイル
処理開始
ResourceManager
DataNode
ブロック
NodeManager
中間データB
Mapクラス
DataNode
ブロック
NodeManager
中間データA
Mapクラス
NodeManager
Reduceクラス
中間データB
中間データA
中間データB
中間データA
コピーアペンドソート
処理結果データ
問い合わせ
配布
Hadoopクラスター
中間データA
中間データB
19

HDFSの特徴
–汎用のファイルシステムではない
–インタラクティブな使用よりバッチシステムでの使用向き
–大きいサイズのファイルアクセスを得意とする
–Javaで実装
20

Hadoopクラスターの特徴： NameNodeとDataNode
Rack1 Rack2
NameNode DataNode DataNode DataNode DataNode DataNode DataNode
NameNode
– HDFSメタデータの格納
– データはNameNodeの中には流れない
– ファイルシステムの名前空間を管理
– クライアントがファイルへのアクセスを制御
DataNode
− ファイルは１つ以上のブロックに分割され１つのDatanodesに格納され
る
− NameNodeは、ファイルのOpen/Close/rename（ディレクトリを含む）な
どのファイルシステム名前空間操作を実施する
− Datanodesは、NameNodeからの指示でブロックの作成、削除、レプリ
ケートを実施
21

Hadoop HDFSの特徴：レプリケーション
–ファイルはブロック単位
に分割される
–最後のブロック以外のブ
ロックのサイズは同じ
–ブロックはレプリケートさ
れる
–ブロックサイズとレプリ
ケート数はファイルによっ
て変更可能
–レプリケートの数はアプリ
ケーションが指定可能
ファイル
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
レプリケート
22

Hadoopの特徴：Blockreportとheartbeat
– NameNodeは、DataNode群からBlockreport/heartbeatを受け取る
– Blockreport： DataNodeの全てのブロックのリスト
– Heartbeat： DataNodeの死活情報
– DataNodeは、定期的にNameNodeにheartbeatを送り自らの状態を知らせる
– NameNodeは、heartbeatを送ってこないDataNodeをマークし、一切のI/O要請を送らなくなる
– NameNodeは、必要があればブロックのレプリケーションを実行する
– HDFS通信プロトコル：TCP/IP
Rack1 Rack2
NameNode DataNode DataNode DataNode DataNode DataNode DataNode
23

HDFSのメタデータの持続
– HDFSの名前空間は、Namenodeによって保持される
– Namenodeは、editlogを使い変化を記録する
– 例：新しいファイルの作成はeditlogへの追記となる
– ファイルのマッピングや属性の情報は、FsImageに格納
– ローカルのファイルシステムのファイルとしても保存される
– NameNodeは、名前空間とBlockMapをメモリ中に保存する
– NameNodeが起動される時、editlogとFsImageをファイルから読み取り、メモリ中に展開する
– 当然ログの量は膨大になる為、Checkpoint機能を持ち適宜editlogのサイズを小さくする
NameNode DataNode DataNode DataNode
名前空間
FsImage
editlog
BlockMap
24

圧倒的な性能！
MapRファイルシステム
25

ビッグデータ業界激震！HPEがHadoop企業MapR社の資産買収!!
＋日本市場で
多くの実績！
日本＋全世界規模で
ビッグデータ/AI基盤ソリューションを徹底強化！
高速分散ファイルシステム
MapR-FSを提供！
エクサバイト級対応：
• 高可用性NFS
• スナップショット技術
• 自動階層化機能
26

27
新ブランドで全世界展開！
HPE Ezmeral Data Fabric
（HPE EDF）
エズメラルデータファブリック

他のHadoopのディストリビューションの違い
連携 vs 統合
共通基盤として単一のデータプラットフォームに
統合されている
個々に最適化されたポイントソリューションが
連携されている
HDFS API Kafka API
Hadoop MAPR-DB MapR Streams
POSIX, NFS HBase API JSON API
クラスタ間のデータの移動・複製が必要
各クラスタ単位で開発・運用・管理
オープンスタンダードなインターフェースを持った
データ移動不要な単一クラスタで、処理、運用の最適化
アプリケーション単位の垂直統合モデルデータと分析基盤の水平統合モデル
 他のソリューション  MapRを利用
28

分散ファイルシステムを独自開発
オープン性を保ち、Hadoopのコンセプトを活かしつつ、エンタープライズのお客様で
ご利用いただけるレベルの機能を独自開発
独自 or OSS
管理機能
OPEN SOURCE OPEN SOURCE OPEN SOURCE
独自管理機能
(MCS)
多くの商用
ディストリビューション
Apache Hadoop
保守サポート保守サポート
MapR-FS
（分散ストレージ）
HDFS
(分散ストレージ)
HDFS
(分散ストレージ）
29

分散ファイルシステムのボトルネックを排除
エンタープライズ用にOSSにアーキテクチャを再設計・再実装で強化
HDFS
• ライトワンス
• JavaのFS（GCの影響）
• 単一障害点
（NameNode問題）
• データ保護機能に問題
• データの出し入れが困難
MapReduce
MapR-FS
• ランダムR/W
• NFSアクセス
• 分散NameNode
• ミラーリング
• スナップショット
• ボリューム
MapReduce
Java API Java API
強化・改善
（ネイティブFS化）
100%
互換
Disks
MapR-FS
Disks
Ext3/Ext4
JVM(Java実行環境)
HDFS
その他の Apache ベース
のディストリビューション
•OSファイルシステムを使用しない
•JVMを使用しない
•ビルトイン圧縮によるI/O削減
30

なぜMapR？ファイルシステム性能で圧勝！
MapR Confidential
DFSIO性能MB/s
10ノード, 2xクアッドコア, 24GBメモリ, 11x7200rpm SATA
MapR
一般的なHadoopに比べ、
MapRファイルシステムが
性能を圧倒！
強化・改善
（ネイティブ化）HDFS MapR-FS
100%互換
Java API Java API
MapReduce MapReduce
MapRApache Hadoop
31

小さいサイズのデータでも高速な読み書きが可能なファイルシステム
MapR-FS：パフォーマンスとスケールの比較
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
0 1000 2000 3000 4000 5000 6000
Filecreates/s
MapR
他のディストリビューション
ベンチマーク:
File creates (100B)
Hardware:
10ノード, 2 x 4コア, 24 GB RAM, 12 x 1 TB 7200RPM
0
100
200
300
400
0 0.5 1 1.5
Filecreates/s
Files (M)
MapR Other Advantage
Rate
(creates/s)
14-16K 335-360 40x
Scale (files) 6B 1.3M 4615x
他のディストリビューション
32

MapR：メタデータを分散配置し、信頼性を確保！
• 分散NameNode：高信頼
• メタデータを分散：スケーラビリ
ティ確保
• NameNode専用機不要！
NameNode
• メタデータを保管
• 専用機を用意（DataNodeとしては使わない）
• メタデータが専用機に集中
NameNode（=NN）専用機
DataNode DataNode
DataNode DataNode
DataNode DataNode
DataNode DataNode
DataNode DataNode
DataNode DataNode
NN
NN
NN
NN
NN
NN
33

MapR：管理ノードをデータノードで兼用し、HW構成を統一！
•管理ノード：DataNodeを含め
ることが可能！
•ハードウェアを統一でき、構成
が単純！
•管理ノードが別途必要
•物理サーバがヘテロ構成
管理ノード
DataNode DataNode
DataNode DataNode
DataNode DataNode
DataNode DataNode
DataNode DataNode
DataNode DataNode
NN
NN
NN
NN
NN
NN
NN セカンダリNN
34

MapR-FS: 高速データ基盤に必須の最先端ファイルシステム
NFS仮想IP:
10.0.0.250
NFSクライアント
（利用者）
MapR-FS
NFS仮想IP:
10.0.0.250
NFSクライアント
（利用者）
障害が発生してもファイル共有を継続！
MapR-FS
高可用性NFS
35

MapR-FS: 高速データ基盤に必須の最先端ファイルシステム
複数の過去の状態に切り替えられる！
スナップショット
MapR-FS
2019年9月10日
MapR-FS
2020年1月30日
MapR-FS
2020年12月31日
36

MapR: データ管理を効率化する仕組みを搭載！
使用頻度で使い分け
自動階層化
MapR Filesystem on Apollo 4200
HPE Customers, HPE Channel Partners and HPE Internal Use Only: 本ドキュメントはHPEのお客様とHPEパートナー及びHPE社内の利用に限られます。HPEの競合他社への開示、配布は絶対に行わないでください。
ホット
データ
頻繁にアクセス
ウォーム
データ
アクセス頻度が低い
コールド
データ
めったにアクセスがない or
アーカイブ
37

便利！クラスタファイルシステムは、/maprにマウントされている
• クラスターファイルシステムは、NFSサービスを実行しているすべてのノードのロー
カルファイルシステムに自動的にマウントされる
• デフォルトのマウントポイントは/mapr/<cluster name>
• これはMapR固有の機能
38

[user@host1] $ ls –l /mapr/<cluster name>
便利！クラスターファイルシステム上のファイル操作は、LinuxコマンドでOK
MapRはインストール時にクラスターファイルシステムを自動的にマウントするため、
Linuxの「ls」コマンドを使用してクラスターの内容を表示することが可能
39

Google File Systemのアーキテクチャ
Application
GFS クライアント
GFS chunkserver
Linux file system
GFS chunkserver
Linux file system
GFS master
chunk 2ef0
/foo/bar
File namespace
chunk data
chunk handle, byte range
file name, chunk index
chunk handle, chunk locations
Instructions to chunkserver
Chunkserver state
Control messages
Data messages
41

Google File System構成
GFS Master Chunk Server Chunk Server Chunk Server Chunk Server Chunk Server
Chunk １
Chunk 2 Chunk 3 Chunk １ Chunk 2
Chunk １ Chunk 2 Chunk 3 Chunk １ Chunk 2
Chunk １ Chunk 2 Chunk 3 Chunk Chunk 2
Chunk Server
Chunk 3
Chunk 3
Chunk 3
ファイル
42

HPCで豊富な実績！
Lustre File System
43

HDFSと他のファイルシステムで
インポートやエクスポートが必要
HPCとHadoop・AI基盤の共通化のニーズ
共有ストレージ基盤
HPC
クラスター
Hadoop・AI
クラスター
HDFS
インポート処理や
エクスポート処理が必要
マウント
HPCとHadoopで高速分散
ファイルシステムを共有利用！
高速分散ファイルシステム
（例：Lustre）
HPC
クラスター
Hadoop・AI
クラスター
インポート処理や
エクスポート処理が不要
マウント
44

自動運転： HPC・AI基盤における計算処理とI/O処理
• 車から分析基盤にデータが次々と絶え間なく流入
低中高
地形データ
平ら波状悪路
速度データ絶え間なく
流入
ストリーミング
データ収集
データ
前処理
検索
アナリティクス
レポート
学習
データ
テスト
データ
モデル
学習
シミュレー
ション
モデルの
テスト
モデルの
実装
モデルのフィードバックループ
学習とテストのループ
計算
I/O
I/O
I/O
I/O
I/O
I/O I/O
I/O I/O
HPC/AI向けデータ保管庫 GPU計算基盤Hadoop分析基盤
45

Lustreの概要
–大規模HPCクラスターで利用されているオープ
ンソースの分散ファイルシステム
–世界中の多くのスーパーコンピューターで採用さ
れている
–オブジェクト指向のストレージシステム
–InfiniBandサポート
–エクサバイト対応
46

Lustreの構成要素
– OSC（クライアント）
– ユーザーからファイルのread/write要求を受け、実際にファイルのread/writeが行われるまでの作業を、MDSや
OSTとの間で実施する
• MGS(Management Server）
− Lustreファイルシステムを構成するクラスタの情報を管理する。
• MDS（Meta Data Server）
− ファイルシステムの位置情報を持つメタデータと呼ばれるデータを管理
− 実際のデータではなく、クライアント（OSC）に要求されたデータがどのストレージに存在するかという位置情報をOSCに送信
• MDT
− MDSで管理されているストレージ
− 実際のメタデータは、MDTに格納される
• OSS（Object Storage Server）
− ストレージを管理しているサーバ
− クライアントからの要求に従ってファイルをストレージに書き込む処理やデータをクライアントに送信
• OST（Object Storage Target）
− OSSで管理されているストレージ
− 実際にファイルやデータはOSTにread/writeされる
47

Lustre 構成要素 & 相互関係
–スケーラビリティの実装
– メタデータとデータの分離
– スケーラブルなメタデータ
– スケーラブルなデータ
– 効率的なロック制御
– オブジェクト指向アーキテクチャ
Lustre クライアント
(OSC)
Meta Data Server
(MDS)
ディレクトリオペレーション,
メタデータ & 並行処理制御
recovery,
file status,
file creation
file I/O &
file locking
Object Storage Targets
(OST)
(OST)
(OST)
48

Lustreの構造
クライアント
クライアント
クライアント
：
クライアント
TCP Network
MDS
OSS
OSS
：
OSS
sda
sdb
sdc
OST
Object Storage Target
•LUNと理解するのが簡単
•このレイヤーの下に物理RAIDが存在する
例：RAID5、RAID6
Object Storage Server
File System
クライアントからはFileSystemとして見える
複数のネットワークをサポート
49

Lustreの構造
data
meta data
Object
Storage
クライアント
Object
Storage
Targets
Meta Data
Servers
control
LNET
Linux / VFS
50

Lustre File Systemのアーキテクチャ
51
Management Cell
Server Server
OST
OST OST
Cluster Manager
Object Storage Cell
Meta-data
+ database
storage
Cluster Manager
リダンダンシとCellの管理サービスを提供
Object
Storage
MDS
Server Server
Cluster Manager
Object
Storage
OST
ADM
LDAP
SQL
WEB
DHCP
TFTP
MDT
User
Interface
configd configd
User
Interface
Configuration Engine
ノード情報管理
User Interface
コンポーネントとサービスの構成管
理を提供
configd configd
• 管理ノード：管理ネットワークを通じて他のノードを制御
• OSSノード：ネットワークから起動（管理ノードによって提供される）
• サービス：セルサーバー間でフェイルオーバー/フェイルバック
• クラスターサービス：ペアごとに1つのクォーラムLUNを使用

Lustreのシステム構成例
Object Storage Cell Object Storage CellManagement Cell
MGS OST OST
Lustre File System
ファイルファイル
Lustre クライアントLustre クライアント
OST OSTMDS
Fail Over Fail Over Fail Over
ファイルは、1OSTに格納する事も
複数のOSTに格納する事も可能
Management Cell
MGS MGS
Fail Over
MDS MDS
Fail Over
Object Storage Cell
OST OST
Fail Over
OST OST
Fail Over
お互いがStandbyに
なるActive-Activeな
HA構成
52

Lustreの特徴
–OSTの数を増やす事でI/Oの論理帯域を増やす事が可能
–OSTの数を増やす事でI/O性能は、ほぼリニアに向上
MGS/MDS OST
Lustre クライアントLustre クライアント
OST OST OST
53
ノードを増や
せば、性能が
スケール！

必要な性能
ファイルサイズ
ファイルアクセス
データの移動
I/Oパターン
ストレージデバイス
必要な性能
ファイルサイズ
ファイルアクセス
データの移動
I/Oパターン
ストレージデバイス
HPCとAIワークロードが混在するストレージシステムとは？
GB/s
HPC
モデリング、シミュレーション
巨大
シーケンシャル
頻繁
書き込みが多い
ClusterStor
E1000
磁気ディスク
GB/sかつIOPS
大小混在
ランダムとシーケ
ンシャルが混在
中程度
読み込みが多い
AI
機械学習・深層学習
ClusterStor
E1000
オールフラッシュ
GB/sかつIOPS
大小混在
ランダムとシーケ
ンシャルが混在
頻繁
読み書き両方
HPC・AI
混在
かつ
ClusterStor
E1000
ハイブリッド
54

LustreにおけるSSDとHDDの利用
HDD：入力データと出力結果を保管
SSD：超高速スクラッチ領域として利用
56

膨大なHPC・AIデータをLustreファイルシステムに格納し共有！
膨大なAI・HPC処理では、各GPUサーバーに対して並列的な広帯域通信能力が必須！
GPUサーバー
HPE Apollo 6500
HPC・AIストレージ
ClusterStor E1000 I/O
I/O
I/O
I/O
57

https://www.youtube.com/watch?v=LKkIJhOV3ls
58

Lustreシステム構成例
オブジェクトストレージ
メタデータ管理
高速計算ノード： Apollo 2000、Apollo 6500
管理
サーバー
Infiniband
ClusterStor
E1000
管理用LAN
59

ご清聴ありがとう
ございました
@masazumi_koga
60

AI・HPC・ビッグデータで利用される分散ファイルシステムを知る

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to AI・HPC・ビッグデータで利用される分散ファイルシステムを知る

Similar to AI・HPC・ビッグデータで利用される分散ファイルシステムを知る (20)

AI・HPC・ビッグデータで利用される分散ファイルシステムを知る