Submit Search
Upload
HDFS vs. MapR Filesystem
•
0 likes
•
665 views
日本ヒューレット・パッカード株式会社
Follow
HDFS vs. MapR Filesystem
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 76
Download now
Download to read offline
Recommended
Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状
NTT DATA OSS Professional Services
PostgreSQL13でのレプリケーション関連の改善について(第14回PostgreSQLアンカンファレンス@オンライン)
PostgreSQL13でのレプリケーション関連の改善について(第14回PostgreSQLアンカンファレンス@オンライン)
NTT DATA Technology & Innovation
PG-REXで学ぶPacemaker運用の実例
PG-REXで学ぶPacemaker運用の実例
kazuhcurry
オンプレML基盤on Kubernetes パネルディスカッション
オンプレML基盤on Kubernetes パネルディスカッション
Yahoo!デベロッパーネットワーク
PacemakerのMaster/Slave構成の基本と事例紹介(DRBD、PostgreSQLレプリケーション) @Open Source Confer...
PacemakerのMaster/Slave構成の基本と事例紹介(DRBD、PostgreSQLレプリケーション) @Open Source Confer...
Tatsuya Watanabe
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
NTT DATA Technology & Innovation
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
Ken SASAKI
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
Recommended
Apache Hadoopの新機能Ozoneの現状
Apache Hadoopの新機能Ozoneの現状
NTT DATA OSS Professional Services
PostgreSQL13でのレプリケーション関連の改善について(第14回PostgreSQLアンカンファレンス@オンライン)
PostgreSQL13でのレプリケーション関連の改善について(第14回PostgreSQLアンカンファレンス@オンライン)
NTT DATA Technology & Innovation
PG-REXで学ぶPacemaker運用の実例
PG-REXで学ぶPacemaker運用の実例
kazuhcurry
オンプレML基盤on Kubernetes パネルディスカッション
オンプレML基盤on Kubernetes パネルディスカッション
Yahoo!デベロッパーネットワーク
PacemakerのMaster/Slave構成の基本と事例紹介(DRBD、PostgreSQLレプリケーション) @Open Source Confer...
PacemakerのMaster/Slave構成の基本と事例紹介(DRBD、PostgreSQLレプリケーション) @Open Source Confer...
Tatsuya Watanabe
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
NTT DATA Technology & Innovation
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
Ken SASAKI
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
NTT DATA Technology & Innovation
Exadata X8M-2 KVM仮想化ベストプラクティス
Exadata X8M-2 KVM仮想化ベストプラクティス
オラクルエンジニア通信
Pacemaker+PostgreSQLレプリケーションで共有ディスクレス高信頼クラスタの構築@OSC 2013 Tokyo/Spring
Pacemaker+PostgreSQLレプリケーションで共有ディスクレス高信頼クラスタの構築@OSC 2013 Tokyo/Spring
Takatoshi Matsuo
Rac rac one_node説明資料
Rac rac one_node説明資料
Hiroki Morita
Apache Kafka 0.11 の Exactly Once Semantics
Apache Kafka 0.11 の Exactly Once Semantics
Yoshiyasu SAEKI
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
NTT DATA OSS Professional Services
Pacemakerを使いこなそう
Pacemakerを使いこなそう
Takatoshi Matsuo
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
Apache Pulsarの概要と近況
Apache Pulsarの概要と近況
Yahoo!デベロッパーネットワーク
PostgreSQLのリカバリ超入門(もしくはWAL、CHECKPOINT、オンラインバックアップの仕組み)
PostgreSQLのリカバリ超入門(もしくはWAL、CHECKPOINT、オンラインバックアップの仕組み)
Hironobu Suzuki
ただいまHadoop勉強中
ただいまHadoop勉強中
Satoshi Noto
地理分散DBについて
地理分散DBについて
Kumazaki Hiroki
YugabyteDBを使ってみよう - part2 -(NewSQL/分散SQLデータベースよろず勉強会 #2 発表資料)
YugabyteDBを使ってみよう - part2 -(NewSQL/分散SQLデータベースよろず勉強会 #2 発表資料)
NTT DATA Technology & Innovation
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTT DATA OSS Professional Services
Oracle Cloud Infrastructure:2023年2月度サービス・アップデート
Oracle Cloud Infrastructure:2023年2月度サービス・アップデート
オラクルエンジニア通信
Problems with PostgreSQL on Multi-core Systems with MultiTerabyte Data
Problems with PostgreSQL on Multi-core Systems with MultiTerabyte Data
Jignesh Shah
SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係
datastaxjp
ロードバランスへの長い道
ロードバランスへの長い道
Jun Kato
Hadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返り
NTT DATA OSS Professional Services
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
NTT DATA Technology & Innovation
MapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知る
日本ヒューレット・パッカード株式会社
Googleの基盤クローン Hadoopについて
Googleの基盤クローン Hadoopについて
Kazuki Ohta
More Related Content
What's hot
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
NTT DATA Technology & Innovation
Exadata X8M-2 KVM仮想化ベストプラクティス
Exadata X8M-2 KVM仮想化ベストプラクティス
オラクルエンジニア通信
Pacemaker+PostgreSQLレプリケーションで共有ディスクレス高信頼クラスタの構築@OSC 2013 Tokyo/Spring
Pacemaker+PostgreSQLレプリケーションで共有ディスクレス高信頼クラスタの構築@OSC 2013 Tokyo/Spring
Takatoshi Matsuo
Rac rac one_node説明資料
Rac rac one_node説明資料
Hiroki Morita
Apache Kafka 0.11 の Exactly Once Semantics
Apache Kafka 0.11 の Exactly Once Semantics
Yoshiyasu SAEKI
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
NTT DATA OSS Professional Services
Pacemakerを使いこなそう
Pacemakerを使いこなそう
Takatoshi Matsuo
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
Apache Pulsarの概要と近況
Apache Pulsarの概要と近況
Yahoo!デベロッパーネットワーク
PostgreSQLのリカバリ超入門(もしくはWAL、CHECKPOINT、オンラインバックアップの仕組み)
PostgreSQLのリカバリ超入門(もしくはWAL、CHECKPOINT、オンラインバックアップの仕組み)
Hironobu Suzuki
ただいまHadoop勉強中
ただいまHadoop勉強中
Satoshi Noto
地理分散DBについて
地理分散DBについて
Kumazaki Hiroki
YugabyteDBを使ってみよう - part2 -(NewSQL/分散SQLデータベースよろず勉強会 #2 発表資料)
YugabyteDBを使ってみよう - part2 -(NewSQL/分散SQLデータベースよろず勉強会 #2 発表資料)
NTT DATA Technology & Innovation
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTT DATA OSS Professional Services
Oracle Cloud Infrastructure:2023年2月度サービス・アップデート
Oracle Cloud Infrastructure:2023年2月度サービス・アップデート
オラクルエンジニア通信
Problems with PostgreSQL on Multi-core Systems with MultiTerabyte Data
Problems with PostgreSQL on Multi-core Systems with MultiTerabyte Data
Jignesh Shah
SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係
datastaxjp
ロードバランスへの長い道
ロードバランスへの長い道
Jun Kato
Hadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返り
NTT DATA OSS Professional Services
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
NTT DATA Technology & Innovation
What's hot
(20)
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
YugabyteDBを使ってみよう(NewSQL/分散SQLデータベースよろず勉強会 #1 発表資料)
Exadata X8M-2 KVM仮想化ベストプラクティス
Exadata X8M-2 KVM仮想化ベストプラクティス
Pacemaker+PostgreSQLレプリケーションで共有ディスクレス高信頼クラスタの構築@OSC 2013 Tokyo/Spring
Pacemaker+PostgreSQLレプリケーションで共有ディスクレス高信頼クラスタの構築@OSC 2013 Tokyo/Spring
Rac rac one_node説明資料
Rac rac one_node説明資料
Apache Kafka 0.11 の Exactly Once Semantics
Apache Kafka 0.11 の Exactly Once Semantics
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Pacemakerを使いこなそう
Pacemakerを使いこなそう
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
Apache Pulsarの概要と近況
Apache Pulsarの概要と近況
PostgreSQLのリカバリ超入門(もしくはWAL、CHECKPOINT、オンラインバックアップの仕組み)
PostgreSQLのリカバリ超入門(もしくはWAL、CHECKPOINT、オンラインバックアップの仕組み)
ただいまHadoop勉強中
ただいまHadoop勉強中
地理分散DBについて
地理分散DBについて
YugabyteDBを使ってみよう - part2 -(NewSQL/分散SQLデータベースよろず勉強会 #2 発表資料)
YugabyteDBを使ってみよう - part2 -(NewSQL/分散SQLデータベースよろず勉強会 #2 発表資料)
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
Oracle Cloud Infrastructure:2023年2月度サービス・アップデート
Oracle Cloud Infrastructure:2023年2月度サービス・アップデート
Problems with PostgreSQL on Multi-core Systems with MultiTerabyte Data
Problems with PostgreSQL on Multi-core Systems with MultiTerabyte Data
SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係
ロードバランスへの長い道
ロードバランスへの長い道
Hadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返り
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
PostgreSQLをKubernetes上で活用するためのOperator紹介!(Cloud Native Database Meetup #3 発表資料)
Similar to HDFS vs. MapR Filesystem
MapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知る
日本ヒューレット・パッカード株式会社
Googleの基盤クローン Hadoopについて
Googleの基盤クローン Hadoopについて
Kazuki Ohta
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
日本ヒューレット・パッカード株式会社
Hadoop splittable-lzo-compression
Hadoop splittable-lzo-compression
Daiki Sato
Hadoop, NoSQL, GlusterFSの概要
Hadoop, NoSQL, GlusterFSの概要
日本ヒューレット・パッカード株式会社
LibreOfficeをビルドしてみよう(Windows)
LibreOfficeをビルドしてみよう(Windows)
Masataka Kondo
Apache Hadoopを改めて知る
Apache Hadoopを改めて知る
日本ヒューレット・パッカード株式会社
CouchDB JP & BigCouch
CouchDB JP & BigCouch
Yohei Sasaki
Yesod on Heroku
Yesod on Heroku
Takahiro Himura
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
NTT DATA Technology & Innovation
Pdp11 on-fpga
Pdp11 on-fpga
magoroku Yamamoto
Hadoop基盤を知る
Hadoop基盤を知る
日本ヒューレット・パッカード株式会社
How to run P4 BMv2
How to run P4 BMv2
Kentaro Ebisawa
Hadoopの紹介
Hadoopの紹介
bigt23
Dockerイメージ管理の内部構造
Dockerイメージ管理の内部構造
Etsuji Nakai
KEONとPEAKが無くてもFirefox OS開発出来る
KEONとPEAKが無くてもFirefox OS開発出来る
android sola
Hadoop入門
Hadoop入門
Preferred Networks
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
NTT DATA Technology & Innovation
補足 : LOOLのビルドについて
補足 : LOOLのビルドについて
Masataka Kondo
OpenStackでも重要な役割を果たすPacemakerを知ろう!
OpenStackでも重要な役割を果たすPacemakerを知ろう!
ksk_ha
Similar to HDFS vs. MapR Filesystem
(20)
MapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知る
Googleの基盤クローン Hadoopについて
Googleの基盤クローン Hadoopについて
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
Hadoop splittable-lzo-compression
Hadoop splittable-lzo-compression
Hadoop, NoSQL, GlusterFSの概要
Hadoop, NoSQL, GlusterFSの概要
LibreOfficeをビルドしてみよう(Windows)
LibreOfficeをビルドしてみよう(Windows)
Apache Hadoopを改めて知る
Apache Hadoopを改めて知る
CouchDB JP & BigCouch
CouchDB JP & BigCouch
Yesod on Heroku
Yesod on Heroku
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Apache BigtopによるHadoopエコシステムのパッケージング(Open Source Conference 2021 Online/Osaka...
Pdp11 on-fpga
Pdp11 on-fpga
Hadoop基盤を知る
Hadoop基盤を知る
How to run P4 BMv2
How to run P4 BMv2
Hadoopの紹介
Hadoopの紹介
Dockerイメージ管理の内部構造
Dockerイメージ管理の内部構造
KEONとPEAKが無くてもFirefox OS開発出来る
KEONとPEAKが無くてもFirefox OS開発出来る
Hadoop入門
Hadoop入門
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
補足 : LOOLのビルドについて
補足 : LOOLのビルドについて
OpenStackでも重要な役割を果たすPacemakerを知ろう!
OpenStackでも重要な役割を果たすPacemakerを知ろう!
HDFS vs. MapR Filesystem
1.
HDFS vs. MapR
Filesystem 日本ヒューレットパッカード株式会社 HPE認定オープンソース・Linuxテクノロジーエバンジェリスト/Hadoop(CCAH)認定技術者 古賀政純 @masazumi_koga 2020年10月 1 Hadoopクラスター構築実践ガイド著者が語る
2.
古賀政純の実践ガイドシリーズ 最先端オープンソース書籍出版の取り組み コンテナや OSSの 自動配備 IT資源管理 の自動化 クラウド 構築手順 ステップバ イステップで 徹底解説 OS部門1位 AmazonJP ランキング OS部門1位 AmazonJP 新着 ランキング OS部門2位 AmazonJP ランキング 機械学習 ビッグデータ 基盤構築 具体例満載 AmazonJP 新着 ランキング OS部門2位 2
3.
•HPEグローバルでHadoop/AI基盤の情報交換 •市場動向等をタイムリーにお届け 古賀政純の「ビッグデータ・AI最前線」シリーズ HPEにおけるビッグデータ・AI on HPE
Apollo情報提供の取り組み Hadoop認定技術者 MapRイベント登壇 CIO/IT部門長向け 満員御礼! Hadoopイベント登壇 最新情報提供 満員御礼! 日経記事登場 最先端AI/GPU コンピューティング 人工知能学会 登壇 3
4.
分散ファイルシステムが必要とされる背景 定型処理 非定型処理 • 人間が介在しない完全な自動化が可能 •
厳密さが求められる • トランザクション管理 • データ量は多くてもGbytesオーダー • 給与計算、売上集計、伝票処理など • 人間の介在が必要 • 厳密さよりカバレッジ重視(データ量が重要) • データ量はTbytes~Pbytesオーダーになり得る • スケールアウトによる性能向上 • 統計データ作成、検索、データ・マイニングなど RDBMSが得意とする領域 RDBMSが苦手とする領域 従来からの定型処理に加え近年では、非定形処理が必要になってき た 4
5.
業務系ITにおける、RDBMS、DWH、Hadoopの位置づけ RDBMS Oracle / MySQL MS
SQL Server など データウェアハウス RDBMS/DWH専用機 トランザクション処理 Hadoop BI データ蓄積 非構造型 データ 膨大な過去データ 複雑かつ大量のデータを高速に分析 ログ SNS 機器 5
6.
Google File System
vs. HDFS Q. HDFSはGoogle File Systemと同じソースコードで記述されているのですか? A. いいえ、Google File SystemはHDFSとソースが異なります またGoogle File Systemはオープンソースになっていません Q. データはHDFSにどのように書かれますか?ノード1はfile1、ノード2はfile2という書き 込みを指定できますか? A. いいえ、データはノード全体に渡って記録されますので、ノード毎にファイルを指定する ことができません。ノード全体にブロックに分割されて記録されます GFS HDFS MapReduce Bigtable Hadoop MapReduce HBase 6
7.
Hadoopスタック HDFS Map Reduce Pig Hive
Spark Mahout Oozie … HBase 7
8.
例:x86サーバー OS FileSystem OS FileSystem OS FileSystem 通常のファイルシステムと分散ファイルシステムの比較 OS FileSystem File File File Distributed
FileSystem File FileFile FileFile 例:Linux/HP-UX/Windows/etc 例:ext2/ext3/ext4/XFS/FAT/NTFS/etc 分散ファイルシステム HPE Apollo 4200 HPE Apollo 4200 HPE Apollo 4200 HPE Apollo 4200 8
9.
Apache Hadoopの基本コンポーネント マスターと複数のワーカーノードで構成されたクラスターアーキテクチャー
Hadoop Distributed File(HDFS) 分散ファイルシステムをユーザーに提供 データ保存、ブロック、複製される場所 MapReduce/YARN 分析ジョブ処理フレームワーク MapReduce/YARNの仕組みを利用し、分析アプリをプログラミング可能 Hadoop クラスター Hadoop ワーカー Linux & Java NameNode ResourceManager Hadoop ワーカー Linux & Java DataNode NodeManager Hadoop ワーカー Linux & Java DataNode NodeManager Hadoop ワーカー Linux & Java DataNode NodeManager MapReduce処理 HDFSを提供 9
10.
Hadoop分散ファイルシステムHDFS •GoogleのGFSに基づいたアーキテクチャー •複数サーバーを使って冗長ストレージを提供 •信頼性の低いコンピューターを使用することもありうるという前 提で設計されている •データの保存形態:ノード全体に分散 10
11.
HDFSの基礎 •前提となる考え •構成されるノードは障害率が高いという前提で進める •格納されるファイル •数TB~PBクラスのファイル •一つのファイルサイズが巨大 •サイズが小さいものが膨大 •アクセス •ファイルはライトワンス •大規模なストリーミングリード •ランダムアクセスはしない •性能、特徴 •安定したスループットが目的 •低レイテンシではない ブロック(128MB) ブロック(128MB) ブロック(128MB) ブロック(128MB) ブロック(128MB) ブロック(128MB) ブロック(128MB) ブロック(128MB) HDFSのブロック書き込み例 ブロック(128MB) ブロック(128MB) ブロック(128MB) ブロック(128MB) ブロック(128MB) ブロック(128MB) ブロック(128MB) ブロック(128MB) 2Uで4ノードのDataNodeを搭載できる HPE Apollo
2000 11
12.
HDFS アーキテクチャー rack 1 datanode switch block
1 … … HDFS namenode file system namespace metadata HDFS secondary namenode HDFS cient replication for reliability read/write operations metadata operations block 2 rack 2 datanode switch block 1 … block 1 block 2 rack n datanode switch … block 2 switch メタデータの集中 管理が厄介 12
13.
HDFSとロケーションアウェアネス チャンク 1 チャンク
2 チャンク n DataNode 1 DataNode nDataNode 2 … NameNode Client Who has File A offset X, size n 直接やりとり ファイル 1 2 n トポロジーツリー … Replicate Replicate 1 2 3 3 チャンクに分割されて、各ノードに格納される 13
14.
14 HDFS – ファイル書き込み 例)HDFSにファイルをコピーする HDFS クライアント •
2つのブロックを作成 • ノードA、B、Cにブロック1を保存し、ノードD、E、Fにブロック2を保存 ノードA:Apollo 4200 DASDataNode Linux 物理ラック 7番 ノードD: Apollo 4200 DASDataNode Linux 物理ラック 12番 ノードB: Apollo 4200 DASDataNode Linux ノードC: Apollo 4200 DASDataNode Linux ノードE: Apollo 4200 DASDataNode Linux ノードF: Apollo 4200 DASDataNode Linux ブロック 1 ブロック 2 ブロック 1 ブロック 2 ブロック 2 ブロック 1 ブロック 1 ブロック 2 Hadoop NameNode DL360 DASDataNode Linux
15.
15 HDFS – ファイルの読み込み ①
HDFSクライアントは、NameNodeにファイルのブロックの場 所を問い合わせる 条件: NameNodeには、[ブロック1:Node A、ブロック2:NodeD]の情 報が必要 ② HDFSクライアントは、ノードAへのストリームを開き、ブロック1 を取得 ③ HDFSクライアントは、ノードAへのストリームを閉じ、ノードD へのストリームを開いてブロック2を取得 HDFS クライアント ノードA: Apollo 4200 DASDataNode Linux 物理ラック 7 番 ブロック 1 Hadoop NameNode DL360 DASDataNode Linux ノードD: Apollo 4200 DASDataNode Linux ブロック 2 1 3 2
16.
HDFSを構成するシステム •稼動環境 •Linux OSのファイルシステム(XFS等)で稼動できる •Linux OSのファイルシステムは問わない •ファイル •ブロックとして保存 •デフォルトのブロックサイズ:64MB •信頼性の確保 •レプリケーションで実現 •デフォルトの複製数は3 •HDFSを実現するサーバー •1台のNameNode •メタデータを保持 •アクセスを管理 •シンプルな集中管理方式 •DataNode(ワーカーノード) •ブロックを保持 •DataNodeデーモンが稼動 HadoopのNameNode (ProLiant
DL360) HadoopのDataNode (HPE Apollo 4200) NameNodeのバックアップ (ProLiant DL360) 16
17.
HDFSにおけるブロック・ダイアグラム /user/koga/foo.log -> 1,
2, 4 /user/koga/bar.log -> 3, 5 ノード1: 1,2 ノード2: 1,5 ノード3: 3,5,2 ノード4: 1,4,5,3 ノード5: 4,2 ノード6: 3,4 •ファイルが読めなくなる例: •前提: •ファイルfoo.logのブロックが blk1、blk2、blk3からなるとする。 •ノード1: blk1、blk3 •ノード2: blk2 •障害: •この状態でノード2がダウン •結果: •データは読めなくなる。 •レプリケーションが必要となる。 データ1 データ2 データ1 データ5 データ3 データ5 データ2 データ1 データ4 データ5 データ3 データ4 データ2 データ3 データ4 HadoopのDataNode blk1 blk2 blk3 HadoopのDataNode 17
18.
ファイルfoo.logのブロックがblk1、blk2、blk3、blk4でDataNodeのHDFSに記録されている状態で、 1台のnodeに障害が発生した場合でもデータをロードできるというのは、DataNodeのnode1、2、3に おいて、どのようなブロックの状態なの? データをロードできない場合ってあるの? blk1 blk1
blk2 blk3blk2 blk2 blk3 blk3 blk4 blk1 blk1 blk2 blk3blk2 blk2 blk3 blk3 blk4 18
19.
ロード不可のブロック配置とは? node1 node2 node3 blk1 blk1 blk2 blk3
blk3 blk4 blk3blk2 blk2 blk3 blk3 blk4 ファイルfoo.log をロードできる ファイルfoo.log をロード不可 blk1 blk1 blk2 blk3blk2 blk2 blk3 blk3 blk4 blk1 blk1 blk2 blk3blk2 blk2 blk3 blk3 blk4 foo.log blk1 blk2 blk3 blk4 もし 19
20.
例えば、 node1: blk1, blk1,
blk2 node2: blk2, blk2, blk3 node3: blk3, blk3, blk4 が書かれている状態で、node2がダウンした場合、 node1でblk1, blk1, blk2 、node3でblk3, blk3, blk4 が保持されているので、 node1とnode3からblk1、blk2、blk3、blk4がロードできる。なので、 foo.logファイルをロードできる。 しかし、node1がダウンした場合、 もし、node2でblk2, blk2、blk3 、 node3でblk3, blk3, blk4を提供しても、ブロックはblk2、blk3、blk4 となり、blk1がないので、foo.logはロードできなくなる。 HDFSは、このようなことが起こらないように、データのレプリカを3重 化し、かつ、適切にブロックを配置しているんだ。 20
21.
HDFS (Hadoop Distributed
File System) – 分散ファイルシステム – ファイルブロック単位で分散 – 同じファイルブロックを複数のDataNodeにコピー (デフォルトは3面ミラー) – NameNode:HDFSマスター – 分散ファイルシステムのメタデータを管理 – ブロック管理 – DataNode状態監視 – 商用運用のためにはNameNodeを冗長化 – DataNode:HDFSスレーブ – データをブロック単位で保存 – 存在する全てのブロックをNameNodeへ定期的な通知 – HDFS独自のブロック転送プロトコルによりデータブロックを 転送 Master Node ResourceManager NameNode Slave Nodes NodeManager DataNode Host 1 NodeManager DataNode Host N ・・・ 21
22.
HDFS (Hadoop Distributed
File System) NameNode ファイル・システム名前空間を管理 ファイル名とブロック集合をマッピング DataNodeに対するブロックのマッピング ブロックのレプリケーションエンジン DataNode状態監視 メタデータ管理 メインメモリ上に格納 それぞれのファイルにファイルリストとブ ロックリスト それぞれのブロックにDataNodeのリスト ファイル属性 トランザクションログ ファイル作成、ファイル削除等の更新記録 DataNode ブロックサーバー ローカルファイルシステム上にファイルのブ ロックの保管 ブロックのメタデータの保管 フロックとメタデータをクライアントへ ブロックレポート 存在する全てのブロックをNameNodeへ定 期的な通知 データパイプライン 他の特定のDataNodeへのデータ転送 22
23.
HDFSの基礎 •前提となる考え •構成されるノードは障害率が高いという前提で進める •x86サーバーはいつダウンしてもおかしくないという考え •ファイルサイズ •HDFSで取り扱うファイルは数TB~PBクラス •一つのファイルサイズが巨大 •アクセス •ファイルはライトワンス。 •ファイルへの追記はサポートされない •大規模なストリーミングリード •ランダムアクセスはしない •性能、特徴 •安定したスループットを目的とする •低レイテンシではない x86サーバー 23
24.
HDFS (Hadoop Distributed
File System) – ブロック配置 – デフォルトでは3つのデータノードに書き込む – ハートビート – DataNodeはNameNodeにハートビートを送る – NameNodeはDataNodeのフェイルをハートビートで 検知 – レプリケーションエンジン – 新しいレプリカのための新規ノードの選択 – ディスク使用量のバランシング – DataNodeに対するトラフィックのバランシング – データの正確性 – ファイル作成:クライアントはチェックサムを計 – DataNodeがチェックサムを保管 – ファイルアクセス – クライアントはDataNodeからデータとチェックサムを取り出す – バリデーションに失敗した場合、クライアントは他のレプリカを試す – データパイプライン – クライアントはブロックのレプリカを格納しているDataNode のリストを取り出す – クライアントは最初のDataNodeにブロックを書き込む – 最初のDataNodeがパイプライン中の次のDataNodeへ データ転送 – 全てのレプリカへwriteされたら、クライアントは、次のブ ロックに進む 24
25.
Hadoopのワーカーノード •ワーカーノードの役割 •格納されたビッグデータを処理する •HDFSが構成されているノード群からなる •HDFS上にデータが格納されている •ワーカーノードの基本設計 •耐障害性 :レプリカによって担保 •性能 :スケールアウトメリット •内蔵ディスク
:必須 •共有ディスク :不要 •ネットワーク :10GbE以上NIC必須 NameNode NameNodeのバックアップ Hadoopのワーカーノード 25
26.
HDFSを提供するワーカーノード •ファイル •ワーカーノードにブロックとして格納される •ブロック •ワーカーノードのファイルシステム上にある単なるファイルの断片。 •ファイル名: bl_xxxxxxx •ワーカーノード •ファイルを構成するブロックがどの部分であるかについての情報を持っていない •ブロックがどの部分であるかの情報は、NameNodeのメタデータのみに格納されている •レプリケーション •ワーカーノード同士で行われ、NameNodeを介さずに行われる •データ書き出し •DataNodeにデータが書き終わったら、レプリケーションも取れている •レプリカ数が3 =DataNodeは2台まで故障してもOK •通信 •NameNodeは最初DataNodeと通信後、クライアントとDataNode間でやり取り •これはNameNodeのボトルネックを解消 ・各ワーカーノードで動作するDataNodeデーモンの役割: ・ブロックへのアクセスを制御 ・NameNodeとの通信 ワーカーノード群 26
27.
HDFS & Map
Reduce –Hadoop MapReduce –並列処理させるためのフレームワークのひとつ –Input | Map() | Copy/Sort | Reduce() | Output –ResourceManager –MapReduceジョブを管理 –NodeManager –MapReduce処理を実行 27
28.
Hadoopの構成例 NameNode DataNode クライアントクライアント DataNode DataNode
DataNode DataNode DataNode Block 1 Block 2 Block 3 Block 1 Block 2 Block 1 Block 2 Block 3 Block 1 Block 2 Block 1 Block 2 Block 3 Block 1 Block 2 Block 3 Block 3 Block 3 ファイル 処理 ファイルは、ブロックに分割され、 それぞれレプリケーションされる Hadoopは、メタデータを格納するNameNodeとHDFSを持つDataNodeで構成 DL360 Apollo 4200 Apollo 4200 Apollo 4200 Apollo 4200 Apollo 4200 Apollo 4200 NameNodeのメタデータが消失すると、全データロスト! メタデータ 28
29.
HDFSの処理の流れ • シーケンシャルな読み込みを前提、ランダムアクセスは不向き • データ更新不可、追記のみ NameNode DataNode
DataNode DataNode HDFSクライアント ①処理対象となるDataNodeの場所をNameNode に問い合わせる ②NameNodeからの応答を元にHDFSクライアント はDataNodeと直接やりとりを行う 1つのファイルは複数の「ブロック」に 分割され、それぞれのブロックは複数 のサーバに冗長化して書き込み 29
30.
NameNode マスターノード HDFSのデータ保持 1 2 3
4 ブロック 1 4 クライアント データ 4 1 1 4 2 2 23 3 3 問い合わせ メタデータ 管理 DataNode 状態監視 ブロック 管理 1 2 3 4 DataNode群 NameNodeを利用して、 データをブロックに分割 し、DataNodeに配置 1つのブロックを複数の DataNodeに複製(複製 数:3) 30
31.
ワーカーノード上のファイルの読み込み処理手順 Step1. クライアント :NameNodeに接続 Step2. NameNode :ファイルの最初の数ブロックの名前と位置を返す :最初に、近いブロックの位置を返す Step3. クライアント
:最初のDataNodeに接続し、ブロックを読み込む 31
32.
HDFS:READの方法 NameNode Blockの位置情報を Clientに案内にする ・・・ DataNode群 クライアントノード DistributedFileSystem FSDataInputStream アプリ 1. file open 2.
Block位置情報取得 3. Read要求 4. Read要求 (block単位) 5. Read要求 (block単位) 6. close 32
33.
DataNodeがデータの読み込みに失敗した場合の挙動 クライアントはブロックを読み込むために、リスト内にある次のDataNodeにシームレ スに接続しようと試みる。 ワーカーノードにおけるデータ破損の場合の取り扱い •ブロックを読み出す時にチェックサムも計算 •ブロック・スキャナーの機能 •定期的にブロックのチェックサムを計算 •ビット崩壊を避けるため •比較対象 •現在のチェックサムとブロックの 書き込みの時に作成されたチェックサム 現在のチェックサムと書き込み時のチェッ クサムが異なる場合の挙動 •クライアントはリスト内の次のDataNodeから読 み込む •発見された破損ブロックのバージョン情報が NameNodeに伝えられる •NameNodeはブロックを他のノードに再複製 33
34.
ワーカーノード上のHDFSへのファイルの書き込み処理手順 Step1. クライアント :NameNodeに接続要求を出して接続 Step2. NameNode :当該ファイルのエントリーをメタデータに記録 :当該ファイルの「ブロック名」と「DataNodeのリスト」をクライアントに返す Step3. クライアント
:最初のDataNodeに接続し、DataNodeにデータの送信を開始 Step4. DataNode #1 :最初のDataNode(#1)がNameNodeからデータを受け取る :DataNode #1がデータを受け取ったら2番目のDataNode(#2)に接続 :#1から#2にデータ送信を開始 Step5. DataNode #2 :DataNode #3に接続して#3へデータを送信 Step6. DataNode #1 :DataNodeがもつパイプラインからackパケットがクライアントに返される Step7. クライアント :クライアントはブロックの書き込み完了をNameNodeに報告 34
35.
HDFS:WRITEの方法 NameNode 書き込むのに必要な 情報をClientに案内にする DataNode群 クライアントノード DistributedFileSystem FSDataInputStream Application 1. file open
2. file open要求 6. close 4. Writeパケット 7. file close要求 5. ACK (これが返ってこないと失敗) 3. Write要求 ・・・ 35
36.
ワーカーノード上のHDFSへのファイルの書き込み処理概要 •クライアントがNameNodeに接続後、NameNodeがファイル のエントリーをメタデータに記録し、ブロック名とDataNodeのリ ストはクライアントに返される •クライアントは貰ったDataNodeのリストをもとにDataNodeへ のデータの送信を行う。ここでNameNodeは介在しない •1番目にデータを受け取ったDataNodeは2番目のDataNode と通信する。その後3番目、4番目のDataNodeへと通信を行う 36
37.
HDFSへの書き込み処理失敗の場合の挙動 例)DataNode同士のパイプラインでデータの受け渡し処理が失敗した場合 パイプライン :クローズされる データ :パイプラインの中の2つの正常ノードに書き込みを続行 NameNode
:ブロックが複製数を満たしていないことに気付く :他のDataNodeに再複製 チェックサム •ブロックがDataNodeに書き込まれた時に計算されて書きこまれる •後で読み込みが行われる時に、データの整合性を保証するために使用される •メタ情報からチェックサムが計算される •読み込みまたは書き込み時にチェックサムが計算される •読み込みまたは書き込み字に壊れたデータを掴んでいないかチェックしている 37
38.
ワーカーノードに跨いで記録されるブロックがどのファイルに所属す るかを管理しているのはDataNode、NameNodeどちらですか? ワーカーノードのDataNodeデーモン は、ファイルを構成しているブロックが どの部分であるのかという情報を保持 していないんです。ファイルを構成して いるブロックがどの部分なのかどいう 情報は、NameNode側のメタデータの みに格納されています。ちなみに、 DataNodeデーモンは、ブロックへの アクセス制御、NameNodeとの通信を 行うのみです。
39.
• ファイルの書き込みが行われる際、NameNodeが全 てのDataNodeに書き込み処理を依頼しているの? • クライアントとDataNodeのデータ送受信は、 NameNodeが介在して、リダイレクトしているの? •
いや、NameNodeは、データの書き込み処理時に、クライア ントとデータを送信すべきDataNodeとの間でデータをリダイ レクトしているわけではなんだ。 • クライアントからDataNodeへのデータ書き込み処理の際の NameNodeの役割は、クライアントからの書き込み要求を受 けた後、「ブロック名」と「DataNodeのリスト」をクライアントに 返すことなんだよ。 • また、DataNodeでデータの複製数を満たしていない場合、 他のDataNodeに再複製を行うのも、NameNodeの役目な んだ。この時、DataNodeが書き込み処理のackをクライアン トに返すけど、ackをもらったクライアントのブロックの書き込 み完了の通知先もNameNodeなんだ。 39
40.
Hadoopにおけるデータ破損のチェックの メカニズムは、どのようなものなんだろう。 一体、どのノードが担当しているんだ? • チェックサムの計算は、DataNodeがブロックを読み 出す際に行われ、ブロック格納時に作成されたチェッ クサムと比較します。 • ビット崩壊を避けるための定期的なブロックのチェック サム検証がDataNodeによって行われるんです。 40
41.
HDFSを体験しよう: 例)巨大なファイルをHDFSにコピー&様子を見る コピー元の 巨大ファイル /tmp/file30TB /tmpに作成した30TBのファイルfile30TBをHDFSにコピー $ hdfs dfs
-put /tmp/file30TB /user/hdfs/BIGFILEDIR/ 分散FS HDFS 41
42.
HDFS vs. MapR
Filesystem 42
43.
大学時代の古賀の研究は、 人工知能(AI)、 ニューラルネットワーク でした…(90年代) 悲しき第2次人工知能ブーム世代 古賀政純 2018年5月17日発売 20年の 時を越えて フライトデータ分析、 迷惑メール分類、 おすすめ映画タイトルの 表示など具体例掲載! Hadoop+機械学習の書籍 今は、第3次人工知能ブーム! 43
44.
ビッグデータ業界激震!HPEがHadoop企業MapR社の資産買収!! +日本市場で 多くの実績! 日本+全世界規模で ビッグデータ/AI基盤ソリューションを徹底強化! 高速分散ファイルシステム MapR-FSを提供! エクサバイト級対応: • 高可用性NFS • スナップショット技術 •
自動階層化機能 44
45.
新ブランドで全世界展開! HPE Ezmeral Data
Fabric エズメラルデータファブリック 45
46.
旧MapR(新:HPE Ezmeral Data
Fabric)の軌跡 ~進化するデータ活用ニーズを単一データプラットフォームで満たす~ Hadoop + Enterprise Storage Hadoop + Enterprise Storage + NoSQL Enterprise Storage + Hadoop + NoSQL + Interactive SQL Enterprise Storage + Hadoop + NoSQL + Interactive SQL + Global Event Streaming 2011 2013 2014 2016 Top Ranked Hadoop Top Ranked NoSQL Top Ranked SQL MapRは、2009年「MapR-FS」という高性能分散ファイルシステムの開発で起業 Enterprise Storage + Hadoop + NoSQL + Interactive SQL + Global Event Streaming + Monitoring MAPRMONITORING 46
47.
ON-PREMISES, MULTI-CLOUD, IoT
EDGE COMMODITY SERVER VIRTUAL MACHINE IoT & Edge HPE Ezmeral Data Fabric APIs: NFS, POSIX, REST, S3, HDFS, HBASE, JSON, KAFKA, CSI HPE Ezmeral Data Fabricを取り巻く環境 47
48.
202X年のAI利用を見据えたビッグデータ基盤ソフトウェア MapR-DB データベース MapR Streams イベントストリーミング MapR-Filesystem 分散ファイルシステム MapR Ecosystem
Pack(通称、MEP) オープンソースソフトウェア群 Spark, Impala, Sqoop, Drill等 商用のサードパーティー製品群 基盤ソフトウェア 48
49.
他のHadoopのディストリビューションの違い 煩雑な連携 vs 統合でシンプル 共通基盤として単一のデータプラットフォームに 統合されている 個々に最適化されたポイントソリューションが 連携されている HDFS
API Kafka API Hadoop MAPR-DB MapR Streams POSIX, NFS HBase API JSON API クラスタ間のデータの移動・複製が必要 各クラスタ単位で開発・運用・管理 HDFSへのアクセスも煩雑 オープンスタンダードなインターフェースを持った データ移動不要な単一クラスタで、処理、運用の最適化 アプリケーション単位の垂直統合モデル データと分析基盤の水平統合モデル 他のソリューション MapRを利用 49
50.
他のHadoopのディストリビューションの違い 分散ファイルシステムを独自開発 オープン性を保ち、Hadoopのコンセプトを活かしつつ、エンタープライズのお客様で ご利用いただけるレベルの機能を独自開発 独自 or OSS 管理機能 OPEN
SOURCE OPEN SOURCE OPEN SOURCE 独自管理機能 (MCS) 多くの商用 ディストリビューション Apache Hadoop 保守サポート 保守サポート MapR-FS (分散ストレージ) HDFS (分散ストレージ) HDFS (分散ストレージ) 50
51.
他のHadoopのディストリビューションの違い 分散ファイルシステムのボトルネックを排除 エンタープライズ用にOSSにアーキテクチャを再設計・再実装で強化 HDFS • ライトワンス • JavaのFS(GCの影響) •
単一障害点 (NameNode問題) • データ保護機能に問題 • データの出し入れが困難 MapReduce MapR-FS • ランダムR/W • NFSアクセス • 分散NameNode • ミラーリング • スナップショット • ボリューム MapReduce Java API Java API 強化・改善 (ネイティブFS化) 100% 互換 Disks MapR-FS Disks Ext3/Ext4 JVM(Java実行環境) HDFS その他の Apache ベース のディストリビューション •OSファイルシステムを使用しない •JVMを使用しない •ビルトイン圧縮によるI/O削減 51
52.
なぜMapR?ファイルシステム性能で圧勝! MapR Confidential DFSIO性能MB/s 10ノード, 2xクアッドコア,
24GBメモリ, 11x7200rpm SATA MapR 一般的なHadoopに比べ、 MapRファイルシステムが 性能を圧倒! 強化・改善 (ネイティブ化)HDFS MapR Filesystem 100%互換 Java API Java API MapReduce/YARN MapReduce/YARN HPE Ezmeral Data Fabric (旧MapR)Apache Hadoop 52
53.
小さいサイズのデータでも高速な読み書き! 他のHadoopとの比較: MapRファイルシステムが圧勝! 0 2000 4000 6000 8000 10000 12000 14000 16000 18000 0 1000
2000 3000 4000 5000 6000 Filecreates/s MapR 他のディストリビューション ベンチマーク: File creates (100B) Hardware: 10ノード, 2 x 4コア, 24 GB RAM, 12 x 1 TB 7200RPM 0 100 200 300 400 0 0.5 1 1.5 Filecreates/s Files (M) MapR Other Advantage Rate (creates/s) 14-16K 335-360 40x Scale (files) 6B 1.3M 4615x 他のディストリビューション 53
54.
MapRなら、管理情報(メタデータ)分散配置!信頼性確保! •分散NameNode:高信頼 •メタデータを分散:性能がスケール •NameNode専用機不要 •システム構成標準化 •ハードウェア調達簡素化 NameNode • メタデータを保管 • 専用機を用意(DataNodeとしては使わない) NameNode専用機 DataNode
DataNode DataNode DataNode DataNode DataNode DataNode DataNode DataNode DataNode DataNode DataNode NN NN NN NN NN NN 厄介... 54
55.
MapR Filesystem: 高速データ基盤に必須の最先端ファイルシステム NFS仮想IP: 10.0.0.250 NFSクライアント (利用者) MapR-FS NFS仮想IP: 10.0.0.250 NFSクライアント (利用者) 障害が発生してもファイル共有を継続! MapR-FS 高可用性NFS 55
56.
MapR: データ管理を効率化する仕組みを搭載! 使用頻度で使い分け 自動階層化 MapR Filesystem
on Apollo 4200 HPE Customers, HPE Channel Partners and HPE Internal Use Only: 本ドキュメントはHPEのお客様とHPEパートナー及びHPE社内の利用に限られます。HPEの競合他社への開示、配布は絶対に行わないでください。 ホット データ 頻繁にアクセス ウォーム データ アクセス頻度が低い コールド データ めったにアクセスがない or アーカイブ 56
57.
利用頻度による階層化:データ活用の高効率化 通常の頻度でのアクセス (ウォームデータ) イレジャーコーディング技術 東京DC 沖縄DC 性能重視 SSD SAS ディスク 容量重視 SATA 頻繁に利用、パフォーマンス重視: (ホットデータ) めったにアクセスしない: アーカイブ保管 (コールドデータ) アーカイブ重視 オブジェクトストレージ S3互換APIを使用 57
58.
MapRファイルシステムにおける自動階層化 58 /data rack3rack2rack1 warm/node2 hot/node1 cold/node3 warm/node5 hot/node4 cold/node6 warm/node8 hot/node7 cold/node9 /data/hot/ /data/cold/ /data/warm/ • データの各温度:ラック全体のノード(障害ドメイン)が含まれる • 各データの温度は、ラックアウェアネスと障害ドメイン全体の3倍のレプリケーションをサポート •
ボリュームが作成され、トポロジに配置される • 上記の例では、/data/hotに配置されたボリュームは、ノード1、4、および7が担当 • ボリュームがウォームに移動されると、データは、自動的に2、5、および8に移動
59.
Node Node Node • クラスター • 複数のノードで構成される •
各ノード • 複数のディスクを搭載 • ディスクは、ストレージプールに グループ化される ストレージプール:グループ化されたディスクが含まれる
60.
データはストレージプール全体にストライピングされる • HPE Ezmeral
Data Fabricにおける「コンテナー」 • データの論理構造 • データがクラスターに書き込まれると、コンテナーと呼ばれ る論理構造内のストレージプール全体にストライプ化される • HPE Ezmeral Data Fabricは、コンテナのサイズと場所を 自動的に決定する • CLDBサービス • コンテナーの作成、コンテナーの場所を追跡するサービス • クラスターノードで、稼働
61.
ストライプ幅 recovery performance faster slower recovery performance slower faster • ストレージプールのストライプ幅:単なるストレージプールにあるディスクの数 • ストライプ幅が大きい:ストレージプールは高速になる •
ストレージプールで1つのディスクに障害が発生:プール全体がオフラインになる • ストライプ幅が大きいほど、障害が発生したストレージプールの再構築にかかる時間が長くなる
62.
チャンク、コンテナー、レプリカ Rack 1 Rack
2 Rack 3 チャンク マスター コンテナー レプリカ • ファイルの書き込み: チャンク(断片)に分割される • 各チャンクは、一連のブロックとしてマスターコンテナに書き込まれる • チャンクが書き込まれている間、複製も行われる
63.
ボリューム: コンテナーの論理的な集まり アプリケーションに対し、完全 に透過的 コンテナーとその全レプリカ は、常に同じボリュームにある Rack 1 Rack
2 Rack 3 ボリュームとは何か?
64.
ボリュームとは何か? HPE Ezmeral Data
Fabricボリューム(MapRボ リューム)とは? – コンテナーとそのレプリカの論理的な集まり – データの編成と管理の論理単位 – コンテナーで構成 – 同じボリューム内のすべてのレプリカ – ネームコンテナーは1つ – 複数のデータコンテナーが含まれる – HPE Ezmeral Data Fabricの固有機能 – データを整理し、一連のファイル、ディレクトリ、サブ ボリュームにポリシーを適用する方法を提供 – データが追加されたときにのみスペースを消費
65.
HPE Ezmeral Data
Fabricにおける名前コンテナー 名前コンテナー: –ボリュームごとに1つ存在(およびレプリカ) –メタデータを保持 –ファイルとディレクトリ –チャンクの場所 –各ファイルの最初の64Kを保持 • 各ボリュームには、単一の名前コンテナーと多数のデータコンテナーが含まれる • 名前コンテナは、ボリューム内のファイルとディレクトリのメタデータ、チャンクの場所に関する情報、および各ファ イルの最初の64KBを保持する • 64K未満のファイルを保存する場合、それらは名前コンテナーに存在し、データコンテナーに書き込まれない
66.
ボリュームは2種類 –オリジナルのデータソース –読み書き可能 –読み取り専用も設定可能 ミラー ボリューム標準ボリューム – 別のボリュームのコピー – 読み取り専用 –
ソースボリュームを変更するたびに自動的 に更新されるわけではない – 手動またはスケジュールに従って同期可能
67.
ミラーリング機能を提供! • ボリュームとは? • ファイルシステムを論理的に分割したもの •
異なる運用管理ポリシーを適用可能 • ディスク容量拡張、上限設定 • ボリュームを別のMapR基盤にミラーリング! 差分のみ更新 圧縮、チェックサムを行い データ転送 定期、または、オンデマンド バックアップ LAN/WAN対応! 帯域調整も可能! ボリュームA’ DC間でも ミラー可能 (DR) WANボリュームB ボリュームA クラスタ内で ミラー可能 東京大阪 ビッグデータ基盤の 災害対策・データ保護は コレで決まり! 67
68.
HDFSに比べて、 MapR Filesystemは、 非常に便利! 68
69.
便利!クラスタファイルシステムは、/maprにマウントされている • クラスターファイルシステムは、NFSサービスを実行しているすべてのノードのロー カルファイルシステムに自動的にマウントされる • デフォルトのマウントポイントは/mapr/<cluster
name> • これはMapR固有の機能 69
70.
[user@host1] $ ls
–l /mapr/<cluster name> 便利!クラスターファイルシステム上のファイル操作は、LinuxコマンドでOK MapRはインストール時にクラスターファイルシステムを自動的にマウントするため、 Linuxの「ls」コマンドを使用してクラスターの内容を表示することが可能 70
71.
MCSでボリューム作成、管理も簡単!
72.
Ezmeral Quiz MapRファイルシステムの読み 書き性能は、一般のHadoop 分散ファイルシステム(HDFS) と同じである。○か×か。 72
73.
Ezmeral Quiz MapRファイルシステムの読み 書き性能は、一般のHadoop 分散ファイルシステム(HDFS) と同じである。○か×か。 73
74.
ビッグデータ・AI基盤は HPEにお任せください! HPE Ezmeral Data
Fabricのまとめ エンタープライズレベルの豊富な導入実績 超高速!MapRファイルシステム エクサバイト級に対応! アクセス継続!高可用性NFS データを過去の状態に戻す!スナップショット 74
75.
ご清聴ありがとう ございました @masazumi_koga
76.
機械学習とビッグデータを知る 最先端オープンソース書籍出版への取り組み AI時代に必携の一冊! 機械学習・ビッグデータ基盤導入検討・構築・使用法・応用例 等 Apache
Hadoop 3と商用版MapR 6クラスター構築、使用法 機械学習, ニューラルネットワークの具体例 データベースとの連携, ETLツール RDBMS, ログ, Twitterデータの取得 等 • Bigdata分析基盤の概要 • Hadoopの種類、沿革、システム構成 • Apache Hadoop 3の特徴 • Hadoopシステム構成、導入前検討項目 • ハードウェアコンポーネントの検討 • Hadoop 3, MapR 6クラスターハードウェア構成例 • Hadoopクラウド • ハードウェアの設定 • Hadoop 3, MapR 6クラスターのインストール • Hadoop 3, MapR 6クラスターの運用管理 • Spark SQL, Spark Streaming, Spark GraphX, Spark R, Spark MLlib • ニューラルネットワーク • Hive, Impala, HBase, Pig • Sqoop, Flume • Mahout Amazon インプレス フライトデータ分析、 迷惑メール分類、 おすすめ映画タイトルの 表示など、機械学習の 具体例を掲載! Hadoop 3と MapR 6を 解説した世界初の本!
Download now