Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
EN
NS
Uploaded by
NTT DATA OSS Professional Services
1,855 views
HDFS Router-based federation
2018年7月20日に開催されたSpark AI Summit + Dataworks Summit報告会での講演資料です。
Technology
◦
Read more
1
Save
Share
Embed
Embed presentation
1
/ 16
2
/ 16
3
/ 16
4
/ 16
5
/ 16
6
/ 16
7
/ 16
8
/ 16
9
/ 16
10
/ 16
11
/ 16
12
/ 16
13
/ 16
14
/ 16
15
/ 16
16
/ 16
More Related Content
PDF
Apache Hadoopの未来 3系になって何が変わるのか?
by
NTT DATA OSS Professional Services
PDF
Distributed data stores in Hadoop ecosystem
by
NTT DATA OSS Professional Services
PDF
HDFS basics from API perspective
by
NTT DATA OSS Professional Services
PDF
Apache Hadoopの新機能Ozoneの現状
by
NTT DATA OSS Professional Services
PDF
Hadoopエコシステムのデータストア振り返り
by
NTT DATA OSS Professional Services
PDF
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
by
NTT DATA OSS Professional Services
PDF
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
by
NTT DATA OSS Professional Services
PPTX
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
by
NTT DATA Technology & Innovation
Apache Hadoopの未来 3系になって何が変わるのか?
by
NTT DATA OSS Professional Services
Distributed data stores in Hadoop ecosystem
by
NTT DATA OSS Professional Services
HDFS basics from API perspective
by
NTT DATA OSS Professional Services
Apache Hadoopの新機能Ozoneの現状
by
NTT DATA OSS Professional Services
Hadoopエコシステムのデータストア振り返り
by
NTT DATA OSS Professional Services
PostgreSQL10を導入!大規模データ分析事例からみるDWHとしてのPostgreSQL活用のポイント
by
NTT DATA OSS Professional Services
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
by
NTT DATA OSS Professional Services
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
by
NTT DATA Technology & Innovation
What's hot
PPTX
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
by
NTT DATA Technology & Innovation
PDF
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
by
Insight Technology, Inc.
PDF
Apache Hadoop and YARN, current development status
by
NTT DATA OSS Professional Services
PDF
サポートメンバは見た! Hadoopバグワースト10 (adoop / Spark Conference Japan 2016 ライトニングトーク発表資料)
by
NTT DATA OSS Professional Services
PDF
20170303 java9 hadoop
by
NTT DATA OSS Professional Services
PDF
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
by
NTT DATA OSS Professional Services
PDF
[db tech showcase Tokyo 2017] D33: Deep Learningや、Analyticsのワークロードを加速するには-Ten...
by
Insight Technology, Inc.
PDF
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
by
NTT DATA OSS Professional Services
PDF
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
by
NTT DATA OSS Professional Services
PPTX
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
by
NTT DATA Technology & Innovation
PDF
Hadoop2.6の最新機能+
by
NTT DATA OSS Professional Services
PDF
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
by
NTT DATA OSS Professional Services
PDF
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
by
Insight Technology, Inc.
PDF
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
by
オラクルエンジニア通信
PDF
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
by
Yahoo!デベロッパーネットワーク
PDF
データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
by
NTT DATA Technology & Innovation
PDF
最新版Hadoopクラスタを運用して得られたもの
by
cyberagent
PDF
20190314 PGStrom Arrow_Fdw
by
Kohei KaiGai
PDF
Apache Hadoopの現在と未来
by
Yahoo!デベロッパーネットワーク
PDF
Hadoop ecosystem NTTDATA osc15tk
by
NTT DATA OSS Professional Services
ポスト・ラムダアーキテクチャの切り札? Apache Hudi(NTTデータ テクノロジーカンファレンス 2020 発表資料)
by
NTT DATA Technology & Innovation
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
by
Insight Technology, Inc.
Apache Hadoop and YARN, current development status
by
NTT DATA OSS Professional Services
サポートメンバは見た! Hadoopバグワースト10 (adoop / Spark Conference Japan 2016 ライトニングトーク発表資料)
by
NTT DATA OSS Professional Services
20170303 java9 hadoop
by
NTT DATA OSS Professional Services
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
by
NTT DATA OSS Professional Services
[db tech showcase Tokyo 2017] D33: Deep Learningや、Analyticsのワークロードを加速するには-Ten...
by
Insight Technology, Inc.
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
by
NTT DATA OSS Professional Services
Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)
by
NTT DATA OSS Professional Services
Apache Hadoopに見るJavaミドルウェアのcompatibility(Open Developers Conference 2020 Onli...
by
NTT DATA Technology & Innovation
Hadoop2.6の最新機能+
by
NTT DATA OSS Professional Services
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
by
NTT DATA OSS Professional Services
[db tech showcase Tokyo 2016] B31: Spark Summit 2016@SFに参加してきたので最新事例などを紹介しつつデ...
by
Insight Technology, Inc.
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
by
オラクルエンジニア通信
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
by
Yahoo!デベロッパーネットワーク
データインターフェースとしてのHadoop ~HDFSとクラウドストレージと私~ (NTTデータ テクノロジーカンファレンス 2019 講演資料、2019...
by
NTT DATA Technology & Innovation
最新版Hadoopクラスタを運用して得られたもの
by
cyberagent
20190314 PGStrom Arrow_Fdw
by
Kohei KaiGai
Apache Hadoopの現在と未来
by
Yahoo!デベロッパーネットワーク
Hadoop ecosystem NTTDATA osc15tk
by
NTT DATA OSS Professional Services
Similar to HDFS Router-based federation
PPTX
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
by
NTT DATA Technology & Innovation
PDF
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
by
NTT DATA OSS Professional Services
PDF
Hadoop Compatible File Systems 2019 (db tech showcase 2019 Tokyo講演資料、2019/09/25)
by
NTT DATA Technology & Innovation
PDF
Hadoop book-2nd-ch3-update
by
Taisuke Yamada
PDF
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...
by
Yahoo!デベロッパーネットワーク
PPTX
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
by
NTT DATA Technology & Innovation
PDF
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
by
日本ヒューレット・パッカード株式会社
PPTX
Hadoop summit 2012 report
by
Sho Shimauchi
PDF
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
by
Hadoop / Spark Conference Japan
PDF
HDFS HA セミナー #hadoop
by
Cloudera Japan
PPTX
DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)
by
VirtualTech Japan Inc.
PDF
KubeCon + CloudNativeCon Europe 2019 参加報告
by
Takashi Natsume
PDF
Hadoop-3.2.0の新機能の紹介とJava9+対応のコミュニティ動向
by
Yahoo!デベロッパーネットワーク
PDF
HDFS Deep Dive
by
Yifeng Jiang
PDF
141030ceph
by
OSSラボ株式会社
PPTX
HDFS Supportaiblity Improvements
by
Cloudera Japan
PDF
Yahoo! JAPAN MeetUp #8 (インフラ技術カンファレンス)セッション②
by
Yahoo!デベロッパーネットワーク
PDF
Storm×couchbase serverで作るリアルタイム解析基盤
by
NTT Communications Technology Development
PDF
Hadoop operation chaper 4
by
Yukinori Suda
PDF
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
by
Yahoo!デベロッパーネットワーク
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
by
NTT DATA Technology & Innovation
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
by
NTT DATA OSS Professional Services
Hadoop Compatible File Systems 2019 (db tech showcase 2019 Tokyo講演資料、2019/09/25)
by
NTT DATA Technology & Innovation
Hadoop book-2nd-ch3-update
by
Taisuke Yamada
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...
by
Yahoo!デベロッパーネットワーク
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
by
NTT DATA Technology & Innovation
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
by
日本ヒューレット・パッカード株式会社
Hadoop summit 2012 report
by
Sho Shimauchi
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
by
Hadoop / Spark Conference Japan
HDFS HA セミナー #hadoop
by
Cloudera Japan
DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)
by
VirtualTech Japan Inc.
KubeCon + CloudNativeCon Europe 2019 参加報告
by
Takashi Natsume
Hadoop-3.2.0の新機能の紹介とJava9+対応のコミュニティ動向
by
Yahoo!デベロッパーネットワーク
HDFS Deep Dive
by
Yifeng Jiang
141030ceph
by
OSSラボ株式会社
HDFS Supportaiblity Improvements
by
Cloudera Japan
Yahoo! JAPAN MeetUp #8 (インフラ技術カンファレンス)セッション②
by
Yahoo!デベロッパーネットワーク
Storm×couchbase serverで作るリアルタイム解析基盤
by
NTT Communications Technology Development
Hadoop operation chaper 4
by
Yukinori Suda
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
by
Yahoo!デベロッパーネットワーク
More from NTT DATA OSS Professional Services
PDF
Global Top 5 を目指す NTT DATA の確かで意外な技術力
by
NTT DATA OSS Professional Services
PDF
Spark SQL - The internal -
by
NTT DATA OSS Professional Services
PDF
Structured Streaming - The Internal -
by
NTT DATA OSS Professional Services
PPTX
ブロックチェーンの仕組みと動向(入門編)
by
NTT DATA OSS Professional Services
PDF
Application of postgre sql to large social infrastructure jp
by
NTT DATA OSS Professional Services
PDF
Application of postgre sql to large social infrastructure
by
NTT DATA OSS Professional Services
PDF
Apache Hadoop 2.8.0 の新機能 (抜粋)
by
NTT DATA OSS Professional Services
PDF
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
by
NTT DATA OSS Professional Services
PDF
商用ミドルウェアのPuppet化で気を付けたい5つのこと
by
NTT DATA OSS Professional Services
PPTX
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
by
NTT DATA OSS Professional Services
PDF
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
by
NTT DATA OSS Professional Services
PDF
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
by
NTT DATA OSS Professional Services
PDF
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
by
NTT DATA OSS Professional Services
PDF
本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
by
NTT DATA OSS Professional Services
PDF
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
by
NTT DATA OSS Professional Services
PDF
Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...
by
NTT DATA OSS Professional Services
PDF
PostgreSQLコミュニティに飛び込もう
by
NTT DATA OSS Professional Services
PDF
SIプロジェクトでのインフラ自動化の事例 (第1回 Puppetユーザ会 発表資料)
by
NTT DATA OSS Professional Services
Global Top 5 を目指す NTT DATA の確かで意外な技術力
by
NTT DATA OSS Professional Services
Spark SQL - The internal -
by
NTT DATA OSS Professional Services
Structured Streaming - The Internal -
by
NTT DATA OSS Professional Services
ブロックチェーンの仕組みと動向(入門編)
by
NTT DATA OSS Professional Services
Application of postgre sql to large social infrastructure jp
by
NTT DATA OSS Professional Services
Application of postgre sql to large social infrastructure
by
NTT DATA OSS Professional Services
Apache Hadoop 2.8.0 の新機能 (抜粋)
by
NTT DATA OSS Professional Services
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
by
NTT DATA OSS Professional Services
商用ミドルウェアのPuppet化で気を付けたい5つのこと
by
NTT DATA OSS Professional Services
今からはじめるPuppet 2016 ~ インフラエンジニアのたしなみ ~
by
NTT DATA OSS Professional Services
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
by
NTT DATA OSS Professional Services
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
by
NTT DATA OSS Professional Services
PostgreSQLでpg_bigmを使って日本語全文検索 (MySQLとPostgreSQLの日本語全文検索勉強会 発表資料)
by
NTT DATA OSS Professional Services
本当にあったHadoopの恐い話Blockはどこへきえた? (Hadoop / Spark Conference Japan 2016 ライトニングトー...
by
NTT DATA OSS Professional Services
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
by
NTT DATA OSS Professional Services
Hadoopのメンテナンスリリースバージョンをリリースしてみた (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo...
by
NTT DATA OSS Professional Services
PostgreSQLコミュニティに飛び込もう
by
NTT DATA OSS Professional Services
SIプロジェクトでのインフラ自動化の事例 (第1回 Puppetユーザ会 発表資料)
by
NTT DATA OSS Professional Services
HDFS Router-based federation
1.
© 2018 NTT
DATA Corporation 2018/7/20 技術革新統括本部 システム技術本部 鯵坂 明 HDFS router based federation
2.
© 2018 NTT
DATA Corporation 2 本日紹介するセッション • HDFS router based federation • Microsoft, Uberの共同発表 • 資料: https://www.slideshare.net/Hadoop_Summit/hdfs-router-based-federation • HDFS BoF
3.
© 2018 NTT
DATA Corporation 3 従来のNameNode Federation • HDFSクラスタを複数束ねて、1つのHDFSクラスタに見せるための仕組み • NameNodeの限界を緩和するために、開発された • Uberでは、現在これを利用して、1つのDCごとに3つのクラスタに分割している • Main production HDFS cluster • HBase cluster • Tmp cluster (Hive scratch directory, YARN application logs, etc.)
4.
© 2018 NTT
DATA Corporation 4 従来のNameNode Federation • クライアントにViewFileSystemの設定を記述 <property> <!-- デフォルトでViewFileSystemを利用 --> <name>fs.defaultFS</name> <value>viewfs://cluster</value> </property> <property> <name>fs.viewfs.mounttable.cluster.link./data</name> <value>hdfs://ns1/data</value> </property> <property> <name>fs.viewfs.mounttable.cluster.link./project</name> <value>hdfs://ns2/project</value> </property> <property> <name>fs.viewfs.mounttable.cluster.link./user</name> <value>hdfs://ns3/user</value> </property> <property> <name>fs.viewfs.mounttable.cluster.link./tmp</name> <value>hdfs://ns4/tmp</value> </property> <property> <!-- フォールバック先の指定--> <name>fs.viewfs.mounttable.cluster.linkFallback</name> <value>hdfs://ns5/</value> </property> ns5 ns4 ns1 ns2 ns3
5.
© 2018 NTT
DATA Corporation 5 従来のNameNode Federation • クライアントが実行するコマンド • 実際の処理内容 $ hdfs dfs –ls /data/sampledata.txt $ hdfs dfs –ls hdfs://ns1/data/sampledata.txt ns5 ns4 ns1 ns2 ns3 クライアント側で透過的に変換
6.
© 2018 NTT
DATA Corporation 6 従来のNameNode Federationの問題点 • ViewFileSystemの設定管理 • 全てのクライアントに全く同じ設定を実施する必要がある • 設定変更は全てのクライアントに影響 • Subcluster間のリバランスが手動 • 解決策 • Mount tableを中央集権的に管理する • Routing layerを加える
7.
© 2018 NTT
DATA Corporation 7 Router Based Federation (RBF) • Router • クライアントから送られてきたリクエストを、正しいNameNodeにプロキシする • State Store • Mount tableの管理 subcluster 0 R NN DN DN DN subcluster 1 R NN DN DN DN subcluster 2 R NN DN DN DN StateStore(ZK) clientC
8.
© 2018 NTT
DATA Corporation 8 RBF deployments • Microsoft • 23K servers • 8 subclusters • 28 NameNodes • 28 Routers • Uber • 2 routers • 1 data center
9.
© 2018 NTT
DATA Corporation 9 Routerによるレイテンシの影響 • NN と 4NN+12R を比較してみると、 • レイテンシは4倍程度に増加 (read metadataリクエストなので、最悪ケース) • 単位時間あたりに処理できるリクエスト数は4倍弱に
10.
© 2018 NTT
DATA Corporation 10 開発状況 • アクティブに開発が続いている • Phase 1 (HDFS-10467, 2016/5~2017/10, 22/22 subtasks) • Phase 2 (HDFS-12165, 2017/10~, 66/86 subtasks) • New features • WebHDFS • Federated quotas • On-going work • Mount points across subclusters (HDFS-13224) • Rebalancer (HDFS-13123)
11.
© 2018 NTT
DATA Corporation 11 Mount points across subclusters • マウントポイントとsubclusterは1対1対応 • 1対N対応させることで、容量やNameNodeへのリクエストの偏りが解消できる • どうやって割り当てるか • Consistent hashing • HASH (ディレクトリ1階層目のハッシュ), HASH_ALL (フルパスのハッシュ) • LOCAL • RANDOM • 制約 • ファイルを探すために複数のクラスタを辿る必要がある (consistent hashing以外) • renameがクラスタ跨ぎになる可能性があり、非効率 • trunkにマージ済
12.
© 2018 NTT
DATA Corporation 12 On-going work: Rebalancer • 現状では、偏りが発生した場合にはリバランスさせる必要がある • リバランスは現状手動でやるしかない上に、煩雑 • リバランス対象のディレクトリをread-only化する • データコピー • Mount tableの修正 • Read-onlyの解除 • 旧データの削除 • 偏りを自動で特定し、自動でリバランスしてくれると、運用が非常に楽になる 開発状況 • JIRAにはdesign documentが置いてあるだけの状態 • Rebalancer を実装して、その評価をした論文がある • Scaling Distributed File Systems in Resource-Harvesting Datacenters [ATC ‘17]
13.
© 2018 NTT
DATA Corporation 13 Future plan • Uber • Observer NameNode (HDFS-12943) • RBF • Upgrade to 3.x and use Erasure-Coding • Auto rebalancing between hot and warm clusters • Microsoft • Federating federation!!!
14.
© 2018 NTT
DATA Corporation 14 HDFS BoF • 開発者が集まって、各自話したいことを話す • アジェンダはその場で決まる
15.
© 2018 NTT
DATA Corporation 15 HDFS BoF • その場で書かれたアジェンダ • 開発者が多いシリコンバレー開催だからこその集まり具合 (HDFSで20人くらいいて、大半はコミッタ) • 他のカンファレンスにはない、Dataworks Summitの醍醐味だと思う • 来年は東海岸開催なので、集まりが悪くならないか不安
16.
© 2018 NTT
DATA Corporation