Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azure Data Factory、Data Stream 分析、Hadoop on Azure」講演資料、2019年11月22日開催)

© 2019 NTT DATA Corporation
11/22/2019
NTT DATA
Masatake Iwasaki
Hadoop Compatible File Systems (Azure編)

© 2019 NTT DATA Corporation 2
Hadoopは分散ファイルシステム(HDFS)を提供
アプリケーションがHDFS以外にも透過的にアクセスできる
そのためのインターフェースおよびモジュール群:
Hadoop Compatible File Systems
Azureのデータストアにも対応
概要

Hadoopのファイルシステム

Hadoop Distributed File System
Hadoop = 分散FS + 分散処理FW
Hadoopアプリケーション = HDFS上のデータを処理するもの?
HDFS
https://hadoop.apache.org/docs/r3.2.0/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html

core-site.xmlに書く基本的な設定項目
HDFSのアクセス先を書く
ネームサービス名
またはNameNodeのホスト名:port
hdfs://以外もある?
defaultではないFSもある?
fs.defaultFS
<property>
<name>fs.defaultFS</name>
<value>hdfs://mycluster/</value>
</property>

ファイルのpathをURI形式で指定
schemeに応じてよしなにデータを読み書き
データストア間のデータコピー/移動にも便利
distcpなどでも同じ要領
schemeなしのただのpathだとfs.defaultFS
Hadoopのデータストア抽象化
$ hadoop fs -cp file:///a/b hdfs://ns1/a/
$ hadoop fs -cp hdfs://ns1/a/b hdfs://nn1:8020/a/b
$ hadoop fs -cp webhdfs://nn1:9870/a/b s3a://bc/a/

Hadoop Compatible File Systems
Hadoop FileSystem API
Hadoop
Application
HDFS Local FS Amazon S3
Azure
Data Lake
Storage gen2
...
Distributed
FileSystem
Local
FileSystem
S3A
FileSystem
AzureBlob
FileSystem
SparkMapReduce
Spark
Application
MapReduce
Application
WebHdfs
FileSystem
Ozone
Ozone
FileSystem

Google Cloud Storage
https://github.com/GoogleCloudPlatform/bigdata-interop/tree/master/gcs
Oracle Cloud Infrastructure
https://github.com/oracle/oci-hdfs-connector
Ignite File System
https://github.com/apache/ignite/tree/master/modules/hadoop
サードパーティ製のFileSystem実装

.jarにclasspathを通す
Configurationでschemeとクラス名を対応づけ
fs.foobar.impl => foobar://
see https://hadoop.apache.org/docs/r3.2.0/hadoop-project-dist/hadoop-common/core-default.xml
FileSystemモジュールを使うためには
<property>
<name>fs.foobar.impl</name>
<value>org.example.FooBarFileSystem</value>
</property>
$ tail META-INF/services/org.apache.hadoop.fs.FileSystem
org.example.FooBarFileSystem
もしくはjava.util.ServiceLoaderを使う
# 使ってなくてもロードされるのが難点

FileSystem APIをユーザ向けに整理する意図で作られた
意図通りに普及/移行しなかった...
ドキュメントがない
できることが(ほとんど)変わらない
Hadoopのコード自体が両方使っている
FileSystem実装を作るときにはケアする必要あり
FileSystem実装をwrapするのが定番
see o.a.h.fs.DelegateToFileSystem
FileContext API (HADOOP-4952)
<property>
<name>fs.AbstractFileSystem.foobar.impl</name>
<value>org.example.FooBarFs</value>
</property>

ファイル操作と抽象化

Linuxのコマンドと似たような雰囲気
CLI(FsShell)はJava APIを利用して作られたもの
CLIによるファイル操作
$ hadoop fs -mkdir -p /foo/bar
$ hadoop fs -chmod g+w /foo/bar
$ hadoop fs -ls -R /
drwxr-xr-x - iwasakims supergroup 0 2019-08-31 15:11 /foo
drwxrwxr-x - iwasakims supergroup 0 2019-08-31 15:11 /foo/bar
$ echo baz > baz.txt
$ hadoop fs -put baz.txt /foo/bar/
$ hadoop fs -head /foo/bar/baz.txt
baz
$ hadoop fs -rm -r /foo

URIに対応するインスタンスを取得
設定上のデフォルトFSなら明示的な指定は不要
FileSystemインスタンスの取得
scala> import org.apache.hadoop.conf.Configuration
scala> import org.apache.hadoop.fs.FileSystem
scala> import org.apache.hadoop.fs.Path
scala> val conf = new Configuration()
scala> conf.get("fs.defaultFS")
res0: String = hdfs://localhost:8020/
scala> val fs = FileSystem.get(conf)
scala> val path = new Path("hdfs://localhost:8020/")
scala> val fs = p.getFileSystem(conf)
scala> val fs = FileSystem.get(path.toUri(), conf)

ディレクトリの作成
基本的に親がなければ作成 (mkdir -p)
mkdirs
scala> val path = new Path("/foo/bar")
scala> fs.mkdirs(path)
res1: Boolean = true
scala> fs.exists(new Path("/foo"))
res2: Boolean = true

ファイル情報(FileStatus)の取得
listStatus
scala> val listing = fs.listStatus(new Path("/foo/bar"))
scala> val f = listing(0)
f: org.apache.hadoop.fs.FileStatus =
HdfsNamedFileStatus{path=hdfs://localhost:8020/foo/bar/baz.
txt; isDirectory=false; length=4; replication=1;
blocksize=134217728; modification_time=1567217427000;
access_time=1567152892141; owner=iwasakims; group=docker;
permission=rw-r--r--; isSymlink=false; hasAcl=false;
isEncrypted=false; isErasureCoded=false}
scala> fs.getFileBlockLocations(f.getPath(), 0, f.getLen())
res23: Array[org.apache.hadoop.fs.BlockLocation] =
Array(0,4,localhost)

ファイルの新規作成&書き込みオープン
得られたOutputStreamにバイト列を書き込む
先頭からシーケンシャルに
create
scala> import java.nio.charset.Charset
scala> val os = fs.create(new Path("/foo/bar/baz.txt"))
scala> val buf ="baz".getBytes(Charset.forName("UTF-8"))
buf: Array[Byte] = Array(98, 97, 122)
scala> os.write(buf, 0, buf.length)
scala> os.close()

ファイルの読み込みオープン
open
scala> import java.nio.ByteBuffer
scala> val is = fs.open(new Path("/foo/bar/baz.txt"))
scala> val buf = ByteBuffer.allocate(3).array
scala> is.read(buf, 0, buf.length)
res1: Int = 3
scala> new String(buf.array(), Charset.forName("UTF-8"))
res2: String = baz
scala> val bb = ByteBuffer.allocate(2)
scala> is.read(1, bb)
res3: Int = 2
scala> new String(bb.array(), Charset.forName("UTF-8"))
res4: String = az

入力ファイルを分割してタスクに対応づける
タスクごとにデータを処理する
作業用ディレクトリを作る
タスクの出力ファイルを作る
入力ファイルからレコードを読み出す
データを処理する
出力ファイルにレコードを書き込む
出力ファイルを出力先に移動する
フレームワークが入出力を抽象化
Hadoopジョブによるデータ処理の流れ

データ入力を抽象化するもの
入力をInputSplitに分割
レコードを読み出す
InputFormat
public abstract class InputFormat<K, V> {
public abstract
List<InputSplit> getSplits(JobContext context
) throws ...
public abstract
RecordReader<K,V> createRecordReader(InputSplit split,
TaskAttemptContext context
) throws ...
}

ファイルからのデータを読み出しを抽象化
レコードを読み出すロジックは派生クラスが提供
TextInputFormat
SequenceFileInputFormat
AvroInputFormat
ParquetInputFormat
ユーザはパラメータを指定するだけ
どのクラスを使うか
処理対象ファイルのpath
...
FileInputFormat

データ出力を抽象化するもの
レコードを書き出す
出力できるかを確認する
出力を確定する
OutputFormat
public abstract class OutputFormat<K, V> {
public abstract RecordWriter<K, V>
getRecordWriter(TaskAttemptContext context
) throws ...
public abstract void checkOutputSpecs(JobContext context
) throws ...
public abstract
OutputCommitter getOutputCommitter(TaskAttemptContext context
) throws ...
}

オブジェクトストレージの活用

マスターノード(NameNode)がボトルネック
1. NameNodeのヒープサイズ(<100GBくらい?)
2. 管理可能なスレーブノード数(<10000くらい?)
3. 処理可能なリクエスト数(<10万tpsくらい?)
ざっくりした目安
100万データブロックあたりヒープ1GB
ヒープサイズはGC的に100GB程度まで
1億ブロックで12.8PB (ブロックサイズ128MBで)
HDFSのスケーラビリティ

複数のマスターがそれぞれ独立のNamespaceを管理
Namespaceを跨ぐ操作に制限あり
小ファイルの格納の(コスト)効率の悪さは変わらない
Router-based federation (HDFS-10467)でもその点は同じ
HDFS Federation
https://hadoop.apache.org/docs/r3.2.0/hadoop-project-dist/hadoop-hdfs-rbf/HDFSRouterFederation.html

データをファイルという単位で管理
ファイルはデータ(バイト列)の入れ物
ディレクトリはファイルやディレクトリの入れ物
階層的なディレクトリ構造でファイルを整理
ファイル/ディレクトリはメタデータを持つ
所有者に応じたアクセス制御
...
ファイルシステム?

データをオブジェクトという単位で管理
オブジェクトはデータ(バイト列)の入れ物
バケットはオブジェクトの入れ物
フラットなキー空間でオブジェクトを管理
オブジェクトはメタデータを持つ
...
スケールアウトしやすい
REST APIによるアクセス(がメイン)
クラウドのマネージドサービスが利用可能
オブジェクトストレージ

S3AFileSystem
s3a://mybucket/path
ユーザが多く継続的に改良されている
Amazon S3
export HADOOP_OPTIONAL_TOOLS=hadoop-aws
classpathを通すのに設定が必要(Hadoop 3.0以降の例):
<property>
<name>fs.s3.impl</name>
<value>com.amazon.ws.emr.hadoop.fs.EmrFileSystem</value>
</property>
Amazon EMRのEMRFSのコミュニティ版的な位置づけ:

GoogleHadoopFileSystem
gs://container/path
サードパーティ実装
https://github.com/GoogleCloudPlatform/bigdata-interop
最近v2.0.0がリリース
https://cloud.google.com/blog/products/data-analytics/new-release-of-cloud-storage-connector-for-
hadoop-improving-performance-throughput-and-more
ランダムreadの性能向上(fadvise)
ディレクトリ操作のロック(cooperative locking)
Google Cloud Storage

OzoneFileSystem
o3fs://bucket.volume.omhost:9862/path
Ozone:
新作オブジェクトストレージ
Hadoopのサブプロジェクト
https://hadoop.apache.org/ozone/
OzoneClient(RPC)を利用してOzoneにアクセス
Ozone

全機能を備えているのはHDFS(DistributedFileSystem)
HDFSにない機能は定義されていない
e.g. ファイルのランダムupdate
オブジェクトストレージはファイルシステムではない
APIをwrapしてそれっぽく見せかけている
FileSystem APIはHDFSの機能を抽象化したもの

オブジェクトストレージには本来存在しないもの
末尾が/の空オブジェクトで模擬
/dir1/
/dir1/file1.txt
/dir1/file2.txt
ディレクトリ削除 = prefixが同じオブジェクトを全削除
たいてい非atomicな操作
途中で落ちると一部のオブジェクトだけ削除した状態
ディレクトリ

オブジェクトのキー更新ができないデータストレージでは高価
新しい名前のオブジェクトにデータコピー
古い名前のオブジェクトを削除
ディレクトリrename = prefixが同じオブジェクトを全rename
たいてい非atomicな操作
rename

Amazon S3で特徴的な仕様:
作成直後にリストに出ない可能性あり
削除直後にアクセスできる可能性あり
https://docs.aws.amazon.com/AmazonS3/latest/dev/Introduction.html#ConsistencyModel
Eventual Consistency

S3AFileSystemの一貫性を改善するアドオン
補助的なメタデータ置き場としてDynamoDBを利用
create: S3にオブジェクト作成後DynamoDBに記録
listStatus: S3とDynamoDBの両方を見る
S3Guard (HADOOP-13345)
https://issues.apache.org/jira/secure/attachment/12821464/S3GuardImprovedConsistencyforS3AV2.pdf

Hadoop on Azure

Hadoop as a Service
Hadoopセットアップ済みVM(からなるクラスタ)を簡単に起動
Hadoop 3にも対応してる(Hadoop 3.1.0 (HDI 4.0))
HDFSを(あまり)使わない
HDInsight
<property>
<name>fs.defaultFS</name>
<value>abfs://container1@account1.dfs.core.windows.net</value>
<final>true</final>
</property>
$ hdfs dfs -ls hdfs://mycluster/
Found 2 items
drwx-wx-wx - hive hdfs 0 2019-11-21 06:52 hdfs://mycluster/tmp
drwxr-xr-x - yarn hdfs 0 2019-11-21 06:52 hdfs://mycluster/yarn

3種類ある
Azure Blob Storage:
オブジェクトストレージ
Azure Data Lake Storage (Gen1):
ファイルシステム的
WebHDFS互換なREST APIを提供
Azure Data Lake Storage Gen2:
Blob Storage + 階層型名前空間(optional)
Azureのデータストア

NativeAzureFileSystem
wasb://mycontainer@myaccount.blob.core.windows.net/path
wasbs://mycontainer@myaccount.blob.core.windows.net/path (HTTPS)
HDInsightでdefualtFSとして利用可能
depending on com.microsoft.azure.azure-storage
Azure Blob Storage
export HADOOP_OPTIONAL_TOOLS=hadoop-azure

AdlFileSystem
adl://mycontainer.azuredatalakestore.net/path
depending on com.microsoft.azure.azure-data-lake-store-sdk
Azure Data Lake Storage (Gen1)
export HADOOP_OPTIONAL_TOOLS=hadoop-azure-datalake

AzureBlobFileSystem
abfs://mycontainer@myaccount.dfs.core.windows.net/path
SecureAzureBlobFileSystem
abfss://mycontainer@myaccount.dfs.core.windows.net/path
HDInsightでdefualtFSとして利用可能
no dependency on Azure SDK
https://docs.microsoft.com/en-us/rest/api/storageservices/datalakestoragegen2/filesystem
いまから使うならこちら
以降の説明はABFS前提
Azure Data Lake Storage Gen2
export HADOOP_OPTIONAL_TOOLS=hadoop-azure

設定プロパティ名でアカウントごとに設定を使い分け
.アカウント名.dfs.core.windows.net をsuffixにつける
見つからなければsuffixなしのプロパティ名にフォールバック
(例: fs.azure.account.auth.type)
デフォルト値的に指定できる
ストレージアカウント別の設定
<property>
<name>fs.azure.account.auth.type.account1.dfs.core.windows.net</name>
<value>SharedKey</value>
</property>
<property>
<name>fs.azure.account.key.account1.dfs.core.windows.net</name>
<value>xxxxxxxxx</value>
</property>

Azure Active Directoryベースで選択肢がいろいろ
ShareKey:
アクセスキー
OAuth:
OAuth 2.0エンドポイント
トークン取得方法にも選択肢がある
ApplicationのClient ID
VMのManaged Identity
Custom:
ユーザ定義
認証

ストレージアカウントのアクセスキーで認証
細かい権限設定はできない
アクセスキーをそのままジョブに配ることになる
アクセスキーを暗号化した文字列にすることも一応できる
<property>
<name>fs.azure.account.keyprovider.acc1.dfs.core.windows.net</name>
<value>org.apache.hadoop.fs.azurebfs.services.ShellDecryptionKeyProvider</value>
</property>
<property>
<name>fs.azure.shellkeyprovider.script.acc1.dfs.core.windows.net</name>
<value>/path/to/復号化スクリプト</value>
</property>
SharedKey認証
<property>
<value>SharedKey</value>
</property>
<property>
<name>fs.azure.account.key.account1.dfs.core.windows.net</name>
<value>アクセスキー</value>
</property>

Azure Active DirectoryでApp registrations
ContainerのAccess Control(IAM)でappにRoleアサイン
https://docs.microsoft.com/en-us/azure/active-directory/develop/howto-create-service-principal-portal
OAuth 2.0 Client Credentials
<property>
<value>OAuth</value>
</property>
<property>
<name>fs.azure.account.oauth.provider.type.account1.dfs.core.windows.net</name>
<value>org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider</value>
</property>
<property>
<name>fs.azure.account.oauth2.client.endpoint.account1.dfs.core.windows.net</name>
<value>https://login.microsoftonline.com/{tenant ID}/oauth2/token</value>
</property>
<property>
<name>fs.azure.account.oauth2.client.id.account1.dfs.core.windows.net</name>
<value>{application (client) ID}</value>
</property>
<property>
<name>fs.azure.account.oauth2.client.secret.account1.dfs.core.windows.net</name>
<value>{client secret}</value>
</property>
OAuth 2.0 token endpoint (v1)
Applicationのclient secret

認証ロジックをユーザ定義
CustomTokenProviderAdapteeの実装を作ってクラス名を指定
以下はHDInsightの例
Custom認証
<property>
<name>fs.azure.account.auth.type</name>
<value>Custom</value>
</property>
<property>
<name>fs.azure.account.oauth.provider.type</name>
<value>com.microsoft.azure.storage.oauth2.TokenServiceBasedAccessTokenProvider</value>
</property>

エラーメッセージから原因を判別しにくい
アクセスキーの誤り
アクセスキーの期限切れ
時計が合っていない
認証エラー
ls: Operation failed: "Server failed to authenticate the request. Make
sure the value of Authorization header is formed correctly including
the signature.", 403, HEAD,
https://account1.dfs.core.windows.net/container1//?upn=false&action=get
AccessControl&timeout=90

階層型名前空間
ストレージアカウント作成時にのみ有効化できる
Atomicで高速なディレクトリ操作
Hierarchical Namespace
Operation Disabled Enabled
File rename O(1) O(1)
File delete O(1) O(1)
Directory rename O(files) O(1)
Directory delete O(files) O(1)

Hierarchical Namespaceが有効な場合のみ設定可能
所有者とパーミッション
$ hadoop fs -ls abfs://co1@ac1.dfs.core.windows.net/tmp/
-rw-r--r-- 1 f78cab55-9a8c-494b-9c98-516e76db76fe iwasakims 175 ...README.txt
$ hadoop fs -chmod 664 abfs://co1@ac1.dfs.core.windows.net/tmp/README.txt
...
DEBUG services.AbfsClient: Authenticating request with OAuth2 access token
DEBUG services.AbfsIoUtils: Request Headers
DEBUG services.AbfsIoUtils: Accept-Charset=utf-8
DEBUG services.AbfsIoUtils: X-HTTP-Method-Override=PATCH
DEBUG services.AbfsIoUtils: x-ms-version=2018-11-09
DEBUG services.AbfsIoUtils: Accept=application/json, application/octet-stream
DEBUG services.AbfsIoUtils: User-Agent=Azure Blob FS/3.3.0-SNAPSHOT (JavaJRE 1.8.0_232...
DEBUG services.AbfsIoUtils: x-ms-permissions=0664
DEBUG services.AbfsClient: HttpRequest:
200,,...PUT,https://ac1.dfs.core.windows.net/co1/tmp/README.txt?action=setAccessControl&tim
eout=90
$ hadoop fs -ls abfs://co1@ac1.dfs.core.windows.net/tmp/
-rw-rw-r-- 1 f78cab55-9a8c-494b-9c98-516e76db76fe iwasakims 175 ...README.txt
Applicationのservice principalのObject ID

ユーザ名を指定してのアクセス制御もサポート
ACL
$ hadoop fs -setfacl -m user:46d59d2f-4d64-4a20-a11b-50cc67e5234b:r-- ¥
abfs://co1@ac1.dfs.core.windows.net/tmp/README.txt
$ hadoop fs -getfacl abfs://co1@ac1.dfs.core.windows.net/tmp/README.txt
user::rw-
user:46d59d2f-4d64-4a20-a11b-50cc67e5234b:r--
group::rw-
mask::rw-
other::---

メモリ上のバッファ(デフォルト8MB)に書き込み->アップロード
Syncable(hflushとhsyncに差分はない)
https://docs.microsoft.com/en-us/rest/api/storageservices/datalakestoragegen2/path/update
ファイル作成とデータ書き込み
scala> val p = new Path("abfs://co1@ac1.dfs.core.windows.net/test.txt")
scala> val fs = p.getFileSystem(new Configuration())
scala> val buf ="baz".getBytes(Charset.forName("UTF-8"))
scala> val os = fs.create(p)
https://ac1.dfs.core.windows.net/co1/test.txt?resource=file&timeout=90
scala> os.hflush()
https://ac1.dfs.core.windows.net/co1/test.txt?action=append&position=0&timeout=90
https://ac1.dfs.core.windows.net/co1/test.txt?action=flush&retainUncommittedData=false&position=3&...
scala> os.close()
https://ac1.dfs.core.windows.net/co1/test.txt?action=flush&retainUncommittedData=false&position=3&close=t
rue&timeout=90

一度書き込みcloseしたファイルの末尾への追記
append
scala> val os = fs.append(p)
scala> os.close()
202,...,PUT,https://ac1.dfs.core.windows.net/co1/test.txt?action=append&po
sition=3&timeout=90
200,...,PUT,https://ac1.dfs.core.windows.net/co1/test.txt?action=flush&ret
ainUncommittedData=false&position=6&close=true&timeout=90

バッファ(デフォルト4MB)にデータを読む
2回目以降のreadからは先読み(read ahead)あり
ByteBuffer(Positioned)Readableは未サポート
データ読み込み
scala> import java.nio.ByteBuffer
scala> val is = fs.open(p)
scala> val buf = ByteBuffer.allocate(3).array
scala> is.read(buf, 0, buf.length)
https://ac1.dfs.core.windows.net/co1/test.txt?timeout=90
scala> new String(buf, Charset.forName("UTF-8"))
res9: String = baz
scala> is.read(0, ByteBuffer.allocate(3))
java.lang.UnsupportedOperationException: Byte-buffer pread unsupported by
org.apache.hadoop.fs.azurebfs.services.AbfsInputStream
at org.apache.hadoop.fs.FSDataInputStream.read(FSDataInputStream.java:258)
... 50 elided

REST APIのリクエストを送るだけ
https://docs.microsoft.com/en-us/rest/api/storageservices/datalakestoragegen2/path/create
階層型名前空間がoffだと1リクエストで処理できる数に上限あり
-> continuationを指定して繰り返しリクエストを送る
rename
$ hadoop fs -mv abfs://co1@ac1.dfs.core.windows.net/dir1 ¥
abfs://co1@ac1.dfs.core.windows.net/dir2
...
Request Headers
If-None-Match=*
Accept-Charset=utf-8
x-ms-version=2018-11-09
x-ms-rename-source=/co1/dir1
...
HttpRequest: 201,...,PUT,
https://ac1.dfs.core.windows.net/co1/dir2?timeout=90

チューニングノブは少ない
fs.azure.io.retry.backoff.interval
fs.azure.io.retry.max.retries
fs.azure.write.request.size
fs.azure.read.request.size
fs.azure.io.read.tolerate.concurrent.append
パラメータチューニング

デバッグログを出すのがてっとり早い
log4j.propertiesで設定
出力されるREST APIの情報を確認
リクエストヘッダ/レスポンスヘッダの内容
クエリパラメータ
トラブルシューティング
log4j.logger.org.apache.hadoop.fs.azurebfs=DEBUG

References

ABFSのドキュメント:
https://hadoop.apache.org/docs/r3.2.1/hadoop-azure/abfs.html
https://github.com/apache/hadoop/blob/trunk/hadoop-tools/hadoop-azure/src/site/markdown/abfs.md
Data Lake Storage Gen2のREST APIのリファレンス:
https://docs.microsoft.com/en-us/rest/api/storageservices/datalakestoragegen2/filesystem
https://docs.microsoft.com/en-us/rest/api/storageservices/datalakestoragegen2/path
FileSystem APIの仕様を定めるドキュメント:
https://hadoop.apache.org/docs/r3.2.1/hadoop-project-dist/hadoop-common/filesystem/index.html
Documentation

Hadoop CommonのJIRA
"Component/s: fs/azure"なものがABFS関連
https://issues.apache.org/jira/browse/HADOOP-15763
Über-JIRA: abfs phase II: Hadoop 3.3 features & fixes
Issue tracking

まとめ

FileSystem APIは各種データストアへの透過的なアクセスを提供
データストアごとのセマンティクスや性能の違いに注意
自分で実装を作ることもできる
Azureのデータストアにも対応
Azure Data Lake Storage Gen2
ファイルシステム的な機能(階層型名前空間)を提供
HDFSと同じ感覚で使いやすい
まとめ

Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azure Data Factory、Data Stream 分析、Hadoop on Azure」講演資料、2019年11月22日開催)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azure Data Factory、Data Stream 分析、Hadoop on Azure」講演資料、2019年11月22日開催)

Similar to Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azure Data Factory、Data Stream 分析、Hadoop on Azure」講演資料、2019年11月22日開催) (20)

More from NTT DATA Technology & Innovation

More from NTT DATA Technology & Innovation (20)

Recently uploaded

Recently uploaded (12)

Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azure Data Factory、Data Stream 分析、Hadoop on Azure」講演資料、2019年11月22日開催)

Editor's Notes