HDFS vs. MapR Filesystem

HDFS vs. MapR Filesystem
日本ヒューレットパッカード株式会社
HPE認定オープンソース・Linuxテクノロジーエバンジェリスト/Hadoop(CCAH)認定技術者
古賀政純 @masazumi_koga
2020年10月
1
Hadoopクラスター構築実践ガイド著者が語る

古賀政純の実践ガイドシリーズ
最先端オープンソース書籍出版の取り組み
コンテナや
OSSの
自動配備
IT資源管理
の自動化
クラウド
構築手順
ステップバ
イステップで
徹底解説
OS部門1位
AmazonJP
ランキング
OS部門1位
AmazonJP
新着
ランキング
OS部門2位
AmazonJP
ランキング
機械学習
ビッグデータ
基盤構築
具体例満載
AmazonJP
新着
ランキング
OS部門2位
2

•HPEグローバルでHadoop/AI基盤の情報交換
•市場動向等をタイムリーにお届け
古賀政純の「ビッグデータ・AI最前線」シリーズ
HPEにおけるビッグデータ・AI on HPE Apollo情報提供の取り組み
Hadoop認定技術者
MapRイベント登壇
CIO/IT部門長向け
満員御礼！
Hadoopイベント登壇
最新情報提供
満員御礼！
日経記事登場
最先端AI/GPU
コンピューティング
人工知能学会
登壇
3

分散ファイルシステムが必要とされる背景
定型処理非定型処理
• 人間が介在しない完全な自動化が可能
• 厳密さが求められる
• トランザクション管理
• データ量は多くてもGbytesオーダー
• 給与計算、売上集計、伝票処理など
• 人間の介在が必要
• 厳密さよりカバレッジ重視(データ量が重要)
• データ量はTbytes～Pbytesオーダーになり得る
• スケールアウトによる性能向上
• 統計データ作成、検索、データ・マイニングなど
RDBMSが得意とする領域 RDBMSが苦手とする領域
従来からの定型処理に加え近年では、非定形処理が必要になってき
た
4

業務系ITにおける、RDBMS、DWH、Hadoopの位置づけ
RDBMS
Oracle / MySQL
MS SQL Server など
データウェアハウス
RDBMS/DWH専用機
トランザクション処理
Hadoop
BI
データ蓄積
非構造型
データ
膨大な過去データ
複雑かつ大量のデータを高速に分析
ログ
SNS
機器
5

Google File System vs. HDFS
Q. HDFSはGoogle File Systemと同じソースコードで記述されているのですか？
A. いいえ、Google File SystemはHDFSとソースが異なります
またGoogle File Systemはオープンソースになっていません
Q. データはHDFSにどのように書かれますか？ノード1はfile1、ノード2はfile2という書き
込みを指定できますか？
A. いいえ、データはノード全体に渡って記録されますので、ノード毎にファイルを指定する
ことができません。ノード全体にブロックに分割されて記録されます
GFS HDFS
MapReduce Bigtable
Hadoop
MapReduce
HBase
6

Hadoopスタック
HDFS
Map Reduce
Pig Hive Spark Mahout Oozie …
HBase
7

例：x86サーバー
OS
FileSystem
OS
FileSystem
OS
FileSystem
通常のファイルシステムと分散ファイルシステムの比較
OS
FileSystem
File File File
Distributed FileSystem
File FileFile FileFile
例：Linux/HP-UX/Windows/etc
例：ext2/ext3/ext4/XFS/FAT/NTFS/etc
分散ファイルシステム
HPE Apollo 4200
HPE Apollo 4200 HPE Apollo 4200 HPE Apollo 4200 8

Apache Hadoopの基本コンポーネント
 マスターと複数のワーカーノードで構成されたクラスターアーキテクチャー
 Hadoop Distributed File(HDFS)
 分散ファイルシステムをユーザーに提供
 データ保存、ブロック、複製される場所
 MapReduce/YARN
 分析ジョブ処理フレームワーク
 MapReduce/YARNの仕組みを利用し、分析アプリをプログラミング可能
Hadoop クラスター
Hadoop
ワーカー
Linux & Java
NameNode
ResourceManager
Hadoop
ワーカー
Linux & Java
DataNode
NodeManager
Hadoop
ワーカー
Linux & Java
DataNode
NodeManager
Hadoop
ワーカー
Linux & Java
DataNode
NodeManager MapReduce処理
HDFSを提供
9

Hadoop分散ファイルシステムHDFS
•GoogleのGFSに基づいたアーキテクチャー
•複数サーバーを使って冗長ストレージを提供
•信頼性の低いコンピューターを使用することもありうるという前
提で設計されている
•データの保存形態：ノード全体に分散
10

HDFSの基礎
•前提となる考え
•構成されるノードは障害率が高いという前提で進める
•格納されるファイル
•数TB～PBクラスのファイル
•一つのファイルサイズが巨大
•サイズが小さいものが膨大
•アクセス
•ファイルはライトワンス
•大規模なストリーミングリード
•ランダムアクセスはしない
•性能、特徴
•安定したスループットが目的
•低レイテンシではないブロック（128MB）
ブロック（128MB）
HDFSのブロック書き込み例
2Uで4ノードのDataNodeを搭載できる
HPE Apollo 2000
11

HDFS アーキテクチャー
rack 1
datanode
switch
block 1
…
…
HDFS namenode
file system
namespace
metadata
HDFS secondary
namenode
HDFS cient
replication
for reliability
read/write
operations
metadata
operations
block 2
rack 2
datanode
switch
block 1 …
block 1
block 2
rack n
datanode
switch
…
block 2
switch
メタデータの集中
管理が厄介
12

HDFSとロケーションアウェアネス
チャンク 1 チャンク 2 チャンク n
DataNode 1 DataNode nDataNode 2
…
NameNode
Client
Who has File A
offset X, size n
直接やりとり
ファイル
1 2 n
トポロジーツリー
…
Replicate Replicate
1
2
3 3
チャンクに分割されて、各ノードに格納される
13

14
HDFS – ファイル書き込み
例）HDFSにファイルをコピーする
HDFS
クライアント
• 2つのブロックを作成
• ノードA、B、Cにブロック1を保存し、ノードD、E、Fにブロック2を保存
ノードA：Apollo 4200
DASDataNode Linux
物理ラック 7番
ノードD： Apollo 4200
DASDataNode Linux
物理ラック
12番
ノードB： Apollo 4200
DASDataNode Linux
ノードC： Apollo 4200
DASDataNode Linux
ノードE： Apollo 4200
DASDataNode Linux
ノードF： Apollo 4200
DASDataNode Linux
ブロック 1 ブロック 2
ブロック 1
ブロック 2
ブロック 2
ブロック 1
ブロック 1
ブロック 2
Hadoop NameNode DL360
DASDataNode Linux

15
HDFS – ファイルの読み込み
① HDFSクライアントは、NameNodeにファイルのブロックの場
所を問い合わせる
条件：
NameNodeには、[ブロック1：Node A、ブロック2：NodeD]の情
報が必要
② HDFSクライアントは、ノードAへのストリームを開き、ブロック1
を取得
③ HDFSクライアントは、ノードAへのストリームを閉じ、ノードD
へのストリームを開いてブロック2を取得
HDFS
クライアント
ノードA： Apollo 4200
DASDataNode Linux
物理ラック 7
番
ブロック
1
Hadoop NameNode DL360
DASDataNode Linux
ノードD： Apollo 4200
DASDataNode Linux ブロック
2
1
3
2

HDFSを構成するシステム
•稼動環境
•Linux OSのファイルシステム（XFS等）で稼動できる
•Linux OSのファイルシステムは問わない
•ファイル
•ブロックとして保存
•デフォルトのブロックサイズ：64MB
•信頼性の確保
•レプリケーションで実現
•デフォルトの複製数は3
•HDFSを実現するサーバー
•1台のNameNode
•メタデータを保持
•アクセスを管理
•シンプルな集中管理方式
•DataNode（ワーカーノード）
•ブロックを保持
•DataNodeデーモンが稼動
HadoopのNameNode
（ProLiant DL360）
HadoopのDataNode
（HPE Apollo 4200）
NameNodeのバックアップ
(ProLiant DL360)
16

HDFSにおけるブロック・ダイアグラム
/user/koga/foo.log -> 1, 2, 4
/user/koga/bar.log -> 3, 5
ノード1： 1,2
ノード2： 1,5
ノード3： 3,5,2
ノード4： 1,4,5,3
ノード5： 4,2
ノード6： 3,4
•ファイルが読めなくなる例：
•前提：
•ファイルfoo.logのブロックが
blk1、blk2、blk3からなるとする。
•ノード1： blk1、blk3
•ノード2： blk2
•障害：
•この状態でノード2がダウン
•結果：
•データは読めなくなる。
•レプリケーションが必要となる。
データ1 データ2
データ3 データ5 データ2
データ1 データ4 データ5 データ3
HadoopのDataNode
blk1
blk2
blk3
HadoopのDataNode
17

ファイルfoo.logのブロックがblk1、blk2、blk3、blk4でDataNodeのHDFSに記録されている状態で、
1台のnodeに障害が発生した場合でもデータをロードできるというのは、DataNodeのnode1、2、3に
おいて、どのようなブロックの状態なの？データをロードできない場合ってあるの？
blk1 blk1 blk2
blk3blk2 blk2
blk3 blk3 blk4
blk1 blk1 blk2
blk3blk2 blk2
blk3 blk3 blk4
18

ロード不可のブロック配置とは？
node1
node2
node3
blk1 blk1 blk2
blk3 blk3 blk4
blk3blk2 blk2
blk3 blk3 blk4
ファイルfoo.log
をロードできる
ファイルfoo.log
をロード不可
blk1 blk1 blk2
blk3blk2 blk2
blk3 blk3 blk4
blk1 blk1 blk2
blk3blk2 blk2
blk3 blk3 blk4
foo.log blk1 blk2 blk3 blk4
もし
19

例えば、
node1: blk1, blk1, blk2
が書かれている状態で、node2がダウンした場合、 node1でblk1,
blk1, blk2 、node3でblk3, blk3, blk4 が保持されているので、
node1とnode3からblk1、blk2、blk3、blk4がロードできる。なので、
foo.logファイルをロードできる。
しかし、node1がダウンした場合、もし、node2でblk2, blk2、blk3 、
node3でblk3, blk3, blk4を提供しても、ブロックはblk2、blk3、blk4
となり、blk1がないので、foo.logはロードできなくなる。
HDFSは、このようなことが起こらないように、データのレプリカを3重
化し、かつ、適切にブロックを配置しているんだ。
20

HDFS (Hadoop Distributed File System)
– 分散ファイルシステム
– ファイルブロック単位で分散
– 同じファイルブロックを複数のDataNodeにコピー
(デフォルトは3面ミラー)
– NameNode：HDFSマスター
– 分散ファイルシステムのメタデータを管理
– ブロック管理
– DataNode状態監視
– 商用運用のためにはNameNodeを冗長化
– DataNode：HDFSスレーブ
– データをブロック単位で保存
– 存在する全てのブロックをNameNodeへ定期的な通知
– HDFS独自のブロック転送プロトコルによりデータブロックを
転送
Master Node
ResourceManager NameNode
Slave Nodes
NodeManager
DataNode
Host 1
NodeManager
DataNode
Host N
・・・
21

NameNode
 ファイル･システム名前空間を管理
 ファイル名とブロック集合をマッピング
 DataNodeに対するブロックのマッピング
 ブロックのレプリケーションエンジン
 DataNode状態監視
 メタデータ管理
 メインメモリ上に格納
 それぞれのファイルにファイルリストとブ
ロックリスト
 それぞれのブロックにDataNodeのリスト
 ファイル属性
 トランザクションログ
 ファイル作成、ファイル削除等の更新記録
DataNode
 ブロックサーバー
 ローカルファイルシステム上にファイルのブ
ロックの保管
 ブロックのメタデータの保管
 フロックとメタデータをクライアントへ
 ブロックレポート
 存在する全てのブロックをNameNodeへ定
期的な通知
 データパイプライン
 他の特定のDataNodeへのデータ転送
22

HDFSの基礎
•前提となる考え
•構成されるノードは障害率が高いという前提で進める
•x86サーバーはいつダウンしてもおかしくないという考え
•ファイルサイズ
•HDFSで取り扱うファイルは数TB～PBクラス
•一つのファイルサイズが巨大
•アクセス
•ファイルはライトワンス。
•ファイルへの追記はサポートされない
•大規模なストリーミングリード
•ランダムアクセスはしない
•性能、特徴
•安定したスループットを目的とする
•低レイテンシではない
x86サーバー
23

– ブロック配置
– デフォルトでは3つのデータノードに書き込む
– ハートビート
– DataNodeはNameNodeにハートビートを送る
– NameNodeはDataNodeのフェイルをハートビートで
検知
– レプリケーションエンジン
– 新しいレプリカのための新規ノードの選択
– ディスク使用量のバランシング
– DataNodeに対するトラフィックのバランシング
– データの正確性
– ファイル作成：クライアントはチェックサムを計
– DataNodeがチェックサムを保管
– ファイルアクセス
– クライアントはDataNodeからデータとチェックサムを取り出す
– バリデーションに失敗した場合、クライアントは他のレプリカを試す
– データパイプライン
– クライアントはブロックのレプリカを格納しているDataNode
のリストを取り出す
– クライアントは最初のDataNodeにブロックを書き込む
– 最初のDataNodeがパイプライン中の次のDataNodeへ
データ転送
– 全てのレプリカへwriteされたら、クライアントは、次のブ
ロックに進む
24

Hadoopのワーカーノード
•ワーカーノードの役割
•格納されたビッグデータを処理する
•HDFSが構成されているノード群からなる
•HDFS上にデータが格納されている
•ワーカーノードの基本設計
•耐障害性：レプリカによって担保
•性能：スケールアウトメリット
•内蔵ディスク：必須
•共有ディスク：不要
•ネットワーク：10GbE以上NIC必須
NameNode
NameNodeのバックアップ
Hadoopのワーカーノード
25

HDFSを提供するワーカーノード
•ファイル
•ワーカーノードにブロックとして格納される
•ブロック
•ワーカーノードのファイルシステム上にある単なるファイルの断片。
•ファイル名： bl_xxxxxxx
•ワーカーノード
•ファイルを構成するブロックがどの部分であるかについての情報を持っていない
•ブロックがどの部分であるかの情報は、NameNodeのメタデータのみに格納されている
•レプリケーション
•ワーカーノード同士で行われ、NameNodeを介さずに行われる
•データ書き出し
•DataNodeにデータが書き終わったら、レプリケーションも取れている
•レプリカ数が3 ＝DataNodeは2台まで故障してもOK
•通信
•NameNodeは最初DataNodeと通信後、クライアントとDataNode間でやり取り
•これはNameNodeのボトルネックを解消
・各ワーカーノードで動作するDataNodeデーモンの役割：
・ブロックへのアクセスを制御
・NameNodeとの通信
ワーカーノード群
26

HDFS & Map Reduce
–Hadoop MapReduce
–並列処理させるためのフレームワークのひとつ
–Input | Map() | Copy/Sort | Reduce() | Output
–ResourceManager
–MapReduceジョブを管理
–NodeManager
–MapReduce処理を実行
27

Hadoopの構成例
NameNode DataNode
クライアントクライアント
DataNode DataNode DataNode DataNode DataNode
Block １ Block 2 Block 3 Block １ Block 2
Block １ Block 2 Block 3 Block １ Block 2
Block １ Block 2 Block 3 Block 1 Block 2
Block 3
Block 3
Block 3
ファイル
処理
ファイルは、ブロックに分割され、
それぞれレプリケーションされる
Hadoopは、メタデータを格納するNameNodeとHDFSを持つDataNodeで構成
DL360 Apollo 4200 Apollo 4200 Apollo 4200 Apollo 4200 Apollo 4200 Apollo 4200
NameNodeのメタデータが消失すると、全データロスト！
メタデータ
28

HDFSの処理の流れ
• シーケンシャルな読み込みを前提、ランダムアクセスは不向き
• データ更新不可、追記のみ
NameNode
DataNode DataNode DataNode
HDFSｸﾗｲｱﾝﾄ
①処理対象となるDataNodeの場所をNameNode
に問い合わせる
②NameNodeからの応答を元にHDFSクライアント
はDataNodeと直接やりとりを行う
1つのファイルは複数の「ブロック」に
分割され、それぞれのブロックは複数
のサーバに冗長化して書き込み
29

NameNode
マスターノード
HDFSのデータ保持
1 2 3 4
ブロック
1 4
クライアント
データ
4 1 1 4
2 2 23
3 3
問い合わせ
メタデータ
管理
DataNode
状態監視
ブロック
管理 1
2
3
4
DataNode群
NameNodeを利用して、
データをブロックに分割
し、DataNodeに配置
1つのブロックを複数の
DataNodeに複製（複製
数：３）
30

ワーカーノード上のファイルの読み込み処理手順
Step1.
クライアント：NameNodeに接続
Step2.
NameNode ：ファイルの最初の数ブロックの名前と位置を返す
：最初に、近いブロックの位置を返す
Step3.
クライアント：最初のDataNodeに接続し、ブロックを読み込む
31

HDFS：READの方法
NameNode
Blockの位置情報を
Clientに案内にする
・・・
DataNode群
クライアントノード
DistributedFileSystem
FSDataInputStream
アプリ
1. file open
2. Block位置情報取得
3. Read要求
4. Read要求
（block単位）
5. Read要求
（block単位）
6. close
32

DataNodeがデータの読み込みに失敗した場合の挙動
クライアントはブロックを読み込むために、リスト内にある次のDataNodeにシームレ
スに接続しようと試みる。
ワーカーノードにおけるデータ破損の場合の取り扱い
•ブロックを読み出す時にチェックサムも計算
•ブロック・スキャナーの機能
•定期的にブロックのチェックサムを計算
•ビット崩壊を避けるため
•比較対象
•現在のチェックサムとブロックの
書き込みの時に作成されたチェックサム
現在のチェックサムと書き込み時のチェッ
クサムが異なる場合の挙動
•クライアントはリスト内の次のDataNodeから読
み込む
•発見された破損ブロックのバージョン情報が
NameNodeに伝えられる
•NameNodeはブロックを他のノードに再複製
33

ワーカーノード上のHDFSへのファイルの書き込み処理手順
Step1.
クライアント：NameNodeに接続要求を出して接続
Step2.
NameNode ：当該ファイルのエントリーをメタデータに記録
：当該ファイルの「ブロック名」と「DataNodeのリスト」をクライアントに返す
Step3.
クライアント：最初のDataNodeに接続し、DataNodeにデータの送信を開始
Step4.
DataNode #1 ：最初のDataNode（#1）がNameNodeからデータを受け取る
：DataNode #1がデータを受け取ったら2番目のDataNode(#2)に接続
：#1から#2にデータ送信を開始
Step5.
DataNode #2 ：DataNode #3に接続して#3へデータを送信
Step6.
DataNode #1 ：DataNodeがもつパイプラインからackパケットがクライアントに返される
Step7.
クライアント：クライアントはブロックの書き込み完了をNameNodeに報告
34

HDFS：WRITEの方法
NameNode
書き込むのに必要な
情報をClientに案内にする
DataNode群
クライアントノード
DistributedFileSystem
FSDataInputStream
Application
1. file open 2. file open要求
6. close
4. Writeパケット
7. file close要求
5. ACK
(これが返ってこないと失敗）
3. Write要求
・・・
35

ワーカーノード上のHDFSへのファイルの書き込み処理概要
•クライアントがNameNodeに接続後、NameNodeがファイル
のエントリーをメタデータに記録し、ブロック名とDataNodeのリ
ストはクライアントに返される
•クライアントは貰ったDataNodeのリストをもとにDataNodeへ
のデータの送信を行う。ここでNameNodeは介在しない
•1番目にデータを受け取ったDataNodeは2番目のDataNode
と通信する。その後3番目、4番目のDataNodeへと通信を行う
36

HDFSへの書き込み処理失敗の場合の挙動
例）DataNode同士のパイプラインでデータの受け渡し処理が失敗した場合
パイプライン：クローズされる
データ：パイプラインの中の2つの正常ノードに書き込みを続行
NameNode ：ブロックが複製数を満たしていないことに気付く
：他のDataNodeに再複製
チェックサム
•ブロックがDataNodeに書き込まれた時に計算されて書きこまれる
•後で読み込みが行われる時に、データの整合性を保証するために使用される
•メタ情報からチェックサムが計算される
•読み込みまたは書き込み時にチェックサムが計算される
•読み込みまたは書き込み字に壊れたデータを掴んでいないかチェックしている
37

ワーカーノードに跨いで記録されるブロックがどのファイルに所属す
るかを管理しているのはDataNode、NameNodeどちらですか？
ワーカーノードのDataNodeデーモン
は、ファイルを構成しているブロックが
どの部分であるのかという情報を保持
していないんです。ファイルを構成して
いるブロックがどの部分なのかどいう
情報は、NameNode側のメタデータの
みに格納されています。ちなみに、
DataNodeデーモンは、ブロックへの
アクセス制御、NameNodeとの通信を
行うのみです。

• ファイルの書き込みが行われる際、NameNodeが全
てのDataNodeに書き込み処理を依頼しているの？
• クライアントとDataNodeのデータ送受信は、
NameNodeが介在して、リダイレクトしているの？
• いや、NameNodeは、データの書き込み処理時に、クライア
ントとデータを送信すべきDataNodeとの間でデータをリダイ
レクトしているわけではなんだ。
• クライアントからDataNodeへのデータ書き込み処理の際の
NameNodeの役割は、クライアントからの書き込み要求を受
けた後、「ブロック名」と「DataNodeのリスト」をクライアントに
返すことなんだよ。
• また、DataNodeでデータの複製数を満たしていない場合、
他のDataNodeに再複製を行うのも、NameNodeの役目な
んだ。この時、DataNodeが書き込み処理のackをクライアン
トに返すけど、ackをもらったクライアントのブロックの書き込
み完了の通知先もNameNodeなんだ。
39

Hadoopにおけるデータ破損のチェックの
メカニズムは、どのようなものなんだろう。
一体、どのノードが担当しているんだ？
• チェックサムの計算は、DataNodeがブロックを読み
出す際に行われ、ブロック格納時に作成されたチェッ
クサムと比較します。
• ビット崩壊を避けるための定期的なブロックのチェック
サム検証がDataNodeによって行われるんです。
40

HDFSを体験しよう：
例）巨大なファイルをHDFSにコピー＆様子を見る
コピー元の
巨大ファイル
/tmp/file30TB
/tmpに作成した30TBのファイルfile30TBをHDFSにコピー
$ hdfs dfs -put /tmp/file30TB /user/hdfs/BIGFILEDIR/
分散FS
HDFS
41

大学時代の古賀の研究は、
人工知能（AI）、
ニューラルネットワーク
でした…（90年代）
悲しき第2次人工知能ブーム世代
古賀政純
2018年5月17日発売
20年の
時を越えて
フライトデータ分析、
迷惑メール分類、
おすすめ映画タイトルの
表示など具体例掲載！
Hadoop＋機械学習の書籍
今は、第3次人工知能ブーム！
43

ビッグデータ業界激震！HPEがHadoop企業MapR社の資産買収!!
＋日本市場で
多くの実績！
日本＋全世界規模で
ビッグデータ/AI基盤ソリューションを徹底強化！
高速分散ファイルシステム
MapR-FSを提供！
エクサバイト級対応：
• 高可用性NFS
• スナップショット技術
• 自動階層化機能
44

新ブランドで全世界展開！
HPE Ezmeral Data Fabric
エズメラルデータファブリック
45

旧MapR（新：HPE Ezmeral Data Fabric）の軌跡
～進化するデータ活用ニーズを単一データプラットフォームで満たす～
Hadoop + Enterprise Storage
Hadoop + Enterprise Storage + NoSQL
Enterprise Storage + Hadoop + NoSQL
+ Interactive SQL
Enterprise Storage + Hadoop + NoSQL
+ Interactive SQL + Global Event Streaming
2011
2013
2014
2016
Top Ranked
Hadoop
Top Ranked
NoSQL
Top Ranked
SQL
MapRは、2009年「MapR-FS」という高性能分散ファイルシステムの開発で起業
Enterprise Storage + Hadoop + NoSQL + Interactive SQL +
Global Event Streaming + Monitoring
MAPRMONITORING
46

ON-PREMISES, MULTI-CLOUD, IoT EDGE
COMMODITY
SERVER
VIRTUAL
MACHINE
IoT & Edge
APIs: NFS, POSIX, REST, S3, HDFS, HBASE, JSON, KAFKA, CSI
HPE Ezmeral Data Fabricを取り巻く環境
47

202X年のAI利用を見据えたビッグデータ基盤ソフトウェア
MapR-DB
データベース
MapR Streams
イベントストリーミング
MapR-Filesystem
分散ファイルシステム
MapR Ecosystem Pack(通称、MEP)
オープンソースソフトウェア群
Spark, Impala, Sqoop, Drill等
商用のサードパーティー製品群
基盤ソフトウェア
48

他のHadoopのディストリビューションの違い
煩雑な連携 vs 統合でシンプル
共通基盤として単一のデータプラットフォームに
統合されている
個々に最適化されたポイントソリューションが
連携されている
HDFS API Kafka API
Hadoop MAPR-DB MapR Streams
POSIX, NFS HBase API JSON API
クラスタ間のデータの移動・複製が必要
各クラスタ単位で開発・運用・管理
HDFSへのアクセスも煩雑
オープンスタンダードなインターフェースを持った
データ移動不要な単一クラスタで、処理、運用の最適化
アプリケーション単位の垂直統合モデルデータと分析基盤の水平統合モデル
 他のソリューション  MapRを利用
49

分散ファイルシステムを独自開発
オープン性を保ち、Hadoopのコンセプトを活かしつつ、エンタープライズのお客様で
ご利用いただけるレベルの機能を独自開発
独自 or OSS
管理機能
OPEN SOURCE OPEN SOURCE OPEN SOURCE
独自管理機能
(MCS)
多くの商用
ディストリビューション
Apache Hadoop
保守サポート保守サポート
MapR-FS
（分散ストレージ）
HDFS
(分散ストレージ)
HDFS
(分散ストレージ）
50

分散ファイルシステムのボトルネックを排除
エンタープライズ用にOSSにアーキテクチャを再設計・再実装で強化
HDFS
• ライトワンス
• JavaのFS（GCの影響）
• 単一障害点
（NameNode問題）
• データ保護機能に問題
• データの出し入れが困難
MapReduce
MapR-FS
• ランダムR/W
• NFSアクセス
• 分散NameNode
• ミラーリング
• スナップショット
• ボリューム
MapReduce
Java API Java API
強化・改善
（ネイティブFS化）
100%
互換
Disks
MapR-FS
Disks
Ext3/Ext4
JVM(Java実行環境)
HDFS
その他の Apache ベース
のディストリビューション
•OSファイルシステムを使用しない
•JVMを使用しない
•ビルトイン圧縮によるI/O削減
51

なぜMapR？ファイルシステム性能で圧勝！
MapR Confidential
DFSIO性能MB/s
10ノード, 2xクアッドコア, 24GBメモリ, 11x7200rpm SATA
MapR
一般的なHadoopに比べ、
MapRファイルシステムが
性能を圧倒！
強化・改善
（ネイティブ化）HDFS MapR Filesystem
100%互換
Java API Java API
MapReduce/YARN MapReduce/YARN
（旧MapR）Apache Hadoop
52

小さいサイズのデータでも高速な読み書き！
他のHadoopとの比較： MapRファイルシステムが圧勝！
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
0 1000 2000 3000 4000 5000 6000
Filecreates/s
MapR
他のディストリビューション
ベンチマーク:
File creates (100B)
Hardware:
10ノード, 2 x 4コア, 24 GB RAM, 12 x 1 TB 7200RPM
0
100
200
300
400
0 0.5 1 1.5
Filecreates/s
Files (M)
MapR Other Advantage
Rate
(creates/s)
14-16K 335-360 40x
Scale (files) 6B 1.3M 4615x
他のディストリビューション
53

MapRなら、管理情報（メタデータ）分散配置！信頼性確保！
•分散NameNode：高信頼
•メタデータを分散：性能がスケール
•NameNode専用機不要
•システム構成標準化
•ハードウェア調達簡素化
NameNode
• メタデータを保管
• 専用機を用意（DataNodeとしては使わない）
NameNode専用機
DataNode DataNode
DataNode DataNode
DataNode DataNode
DataNode DataNode
DataNode DataNode
DataNode DataNode
NN
NN
NN
NN
NN
NN
厄介...
54

MapR Filesystem: 高速データ基盤に必須の最先端ファイルシステム
NFS仮想IP:
10.0.0.250
NFSクライアント
（利用者）
MapR-FS
NFS仮想IP:
10.0.0.250
NFSクライアント
（利用者）
障害が発生してもファイル共有を継続！
MapR-FS
高可用性NFS
55

MapR: データ管理を効率化する仕組みを搭載！
使用頻度で使い分け
自動階層化
MapR Filesystem on Apollo 4200
HPE Customers, HPE Channel Partners and HPE Internal Use Only: 本ドキュメントはHPEのお客様とHPEパートナー及びHPE社内の利用に限られます。HPEの競合他社への開示、配布は絶対に行わないでください。
ホット
データ
頻繁にアクセス
ウォーム
データ
アクセス頻度が低い
コールド
データ
めったにアクセスがない or
アーカイブ
56

利用頻度による階層化：データ活用の高効率化
通常の頻度でのアクセス
（ウォームデータ）
イレジャーコーディング技術東京DC 沖縄DC
性能重視
SSD
SAS
ディスク
容量重視
SATA
頻繁に利用、パフォーマンス重視：
（ホットデータ）
めったにアクセスしない：
アーカイブ保管
（コールドデータ）
アーカイブ重視
オブジェクトストレージ
S3互換APIを使用
57

MapRファイルシステムにおける自動階層化
58
/data
rack3rack2rack1
warm/node2
hot/node1
cold/node3
warm/node5
hot/node4
cold/node6
warm/node8
hot/node7
cold/node9
/data/hot/
/data/cold/
/data/warm/
• データの各温度：ラック全体のノード（障害ドメイン）が含まれる
• 各データの温度は、ラックアウェアネスと障害ドメイン全体の3倍のレプリケーションをサポート
• ボリュームが作成され、トポロジに配置される
• 上記の例では、/data/hotに配置されたボリュームは、ノード1、4、および7が担当
• ボリュームがウォームに移動されると、データは、自動的に2、5、および8に移動

Node
Node
Node
• クラスター
• 複数のノードで構成される
• 各ノード
• 複数のディスクを搭載
• ディスクは、ストレージプールに
グループ化される
ストレージプール：グループ化されたディスクが含まれる

データはストレージプール全体にストライピングされる
• HPE Ezmeral Data Fabricにおける「コンテナー」
• データの論理構造
• データがクラスターに書き込まれると、コンテナーと呼ばれ
る論理構造内のストレージプール全体にストライプ化される
• HPE Ezmeral Data Fabricは、コンテナのサイズと場所を
自動的に決定する
• CLDBサービス
• コンテナーの作成、コンテナーの場所を追跡するサービス
• クラスターノードで、稼働

ストライプ幅
recovery
performance
faster
slower
recovery
performance
slower
faster
• ストレージプールのストライプ幅：単なるストレージプールにあるディスクの数
• ストライプ幅が大きい：ストレージプールは高速になる
• ストレージプールで1つのディスクに障害が発生：プール全体がオフラインになる
• ストライプ幅が大きいほど、障害が発生したストレージプールの再構築にかかる時間が長くなる

チャンク、コンテナー、レプリカ
Rack 1 Rack 2 Rack 3
チャンク
マスター
コンテナー
レプリカ
• ファイルの書き込み：チャンク（断片）に分割される
• 各チャンクは、一連のブロックとしてマスターコンテナに書き込まれる
• チャンクが書き込まれている間、複製も行われる

ボリューム：
コンテナーの論理的な集まり
アプリケーションに対し、完全
に透過的
コンテナーとその全レプリカ
は、常に同じボリュームにある
Rack 1 Rack 2 Rack 3
ボリュームとは何か？

ボリュームとは何か？
HPE Ezmeral Data Fabricボリューム（MapRボ
リューム）とは？
– コンテナーとそのレプリカの論理的な集まり
– データの編成と管理の論理単位
– コンテナーで構成
– 同じボリューム内のすべてのレプリカ
– ネームコンテナーは1つ
– 複数のデータコンテナーが含まれる
– HPE Ezmeral Data Fabricの固有機能
– データを整理し、一連のファイル、ディレクトリ、サブ
ボリュームにポリシーを適用する方法を提供
– データが追加されたときにのみスペースを消費

HPE Ezmeral Data Fabricにおける名前コンテナー
名前コンテナー：
–ボリュームごとに1つ存在（およびレプリカ）
–メタデータを保持
–ファイルとディレクトリ
–チャンクの場所
–各ファイルの最初の64Kを保持
• 各ボリュームには、単一の名前コンテナーと多数のデータコンテナーが含まれる
• 名前コンテナは、ボリューム内のファイルとディレクトリのメタデータ、チャンクの場所に関する情報、および各ファ
イルの最初の64KBを保持する
• 64K未満のファイルを保存する場合、それらは名前コンテナーに存在し、データコンテナーに書き込まれない

ボリュームは2種類
–オリジナルのデータソース
–読み書き可能
–読み取り専用も設定可能
ミラー
ボリューム標準ボリューム
– 別のボリュームのコピー
– 読み取り専用
– ソースボリュームを変更するたびに自動的
に更新されるわけではない
– 手動またはスケジュールに従って同期可能

ミラーリング機能を提供！
• ボリュームとは？
• ファイルシステムを論理的に分割したもの
• 異なる運用管理ポリシーを適用可能
• ディスク容量拡張、上限設定
• ボリュームを別のMapR基盤にミラーリング！
 差分のみ更新
 圧縮、チェックサムを行い
データ転送
 定期、または、オンデマンド
バックアップ
 LAN/WAN対応！
 帯域調整も可能！
ボリュームA’
DC間でも
ミラー可能
（DR）
WANボリュームB
ボリュームA
クラスタ内で
ミラー可能
東京大阪
ビッグデータ基盤の
災害対策・データ保護は
コレで決まり！
67

HDFSに比べて、
MapR Filesystemは、
非常に便利！
68

便利！クラスタファイルシステムは、/maprにマウントされている
• クラスターファイルシステムは、NFSサービスを実行しているすべてのノードのロー
カルファイルシステムに自動的にマウントされる
• デフォルトのマウントポイントは/mapr/<cluster name>
• これはMapR固有の機能
69

[user@host1] $ ls –l /mapr/<cluster name>
便利！クラスターファイルシステム上のファイル操作は、LinuxコマンドでOK
MapRはインストール時にクラスターファイルシステムを自動的にマウントするため、
Linuxの「ls」コマンドを使用してクラスターの内容を表示することが可能
70

MCSでボリューム作成、管理も簡単！

Ezmeral Quiz
MapRファイルシステムの読み
書き性能は、一般のHadoop
分散ファイルシステム（HDFS）
と同じである。○か×か。
72

Ezmeral Quiz
MapRファイルシステムの読み
書き性能は、一般のHadoop
分散ファイルシステム（HDFS）
と同じである。○か×か。
73

ビッグデータ・AI基盤は
HPEにお任せください！
HPE Ezmeral Data Fabricのまとめ
エンタープライズレベルの豊富な導入実績
超高速！MapRファイルシステム
エクサバイト級に対応！
アクセス継続！高可用性NFS
データを過去の状態に戻す！スナップショット
74

ご清聴ありがとう
ございました
@masazumi_koga

機械学習とビッグデータを知る
最先端オープンソース書籍出版への取り組み
AI時代に必携の一冊！
機械学習・ビッグデータ基盤導入検討・構築・使用法・応用例等
 Apache Hadoop 3と商用版MapR 6クラスター構築、使用法
 機械学習, ニューラルネットワークの具体例
 データベースとの連携, ETLツール
 RDBMS, ログ, Twitterデータの取得等
• Bigdata分析基盤の概要
• Hadoopの種類、沿革、システム構成
• Apache Hadoop 3の特徴
• Hadoopシステム構成、導入前検討項目
• ハードウェアコンポーネントの検討
• Hadoop 3, MapR 6クラスターハードウェア構成例
• Hadoopクラウド
• ハードウェアの設定
• Hadoop 3, MapR 6クラスターのインストール
• Hadoop 3, MapR 6クラスターの運用管理
• Spark SQL, Spark Streaming, Spark GraphX, Spark R, Spark MLlib
• ニューラルネットワーク
• Hive, Impala, HBase, Pig
• Sqoop, Flume
• Mahout
Amazon
インプレス
フライトデータ分析、
迷惑メール分類、
おすすめ映画タイトルの
表示など、機械学習の
具体例を掲載！
Hadoop 3と MapR 6を
解説した世界初の本！

HDFS vs. MapR Filesystem

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to HDFS vs. MapR Filesystem

Similar to HDFS vs. MapR Filesystem (20)

HDFS vs. MapR Filesystem