Copyright © 2014 NTT DATA Corporation 1 
(株) NTTデータ 基盤システム事業本部 
鯵坂 明 
2014/11/6 Cloudera World Tokyo 2014 
Hadoop 2.6の最新機能
Copyright © 2014 NTT DATA Corporation 2 
 
NTTデータ OSSプロフェッショナルサービス 
 
Hadoop関連のR&Dやシステム開発に従事 
 
約1年前からHadoop本体の開発に参加 
 
ドキュメント 
 
バグフィックス 
 
運用強化 
 
などなど 
 
パッチのマージ数通算約100件 
 
日本にいる人の中では、トップ 
自己紹介:鯵坂 明 (あじさか あきら)
Copyright © 2014 NTT DATA Corporation 3 
 
Hadoop 2系のGA(2.2.0)以来、最も大きなリリース 
 
848件のissueが解決された 
- 
2.3だと606件、2.4や2.5はそれより少ない 
 
JDK6での動作をサポートするのは、これで最後 
 
2.7以降は、JDK6で動作しない 
 
まだrelease voteが始まっていないが、11月中にリリースさ れると思われる 
Hadoop 2.6
Copyright © 2014 NTT DATA Corporation 4 
 
バージョンごとの機能一覧はwikiで確認できる 
 
http://wiki.apache.org/hadoop/Roadmap 
Hadoop 2.6の最新機能
Copyright © 2014 NTT DATA Corporation 5 
 
今回紹介する機能は、以下の通り 
 
HDFS 
 
Transparent Encryption (HDFS-6134) 
 
Archival Storage (HDFS-6584) 
 
YARN 
 
ResourceManager Restart Phase 2 (YARN-556) 
 
NodeManager Restart (YARN-1336) 
 
どれも現在開発が進められている最新機能 
Hadoop 2.6の最新機能
Copyright © 2014 NTT DATA Corporation 6 
 
背景 
 
HDFSに暗号化の機能は存在しなかった 
- 
ブロックの中身はDataNodeのディスクからそのまま読めてしまう 
 
もともと、Hadoopに対するセキュリティは、クラスタへのアクセスを 隔離することで担保されていた 
 
だが、金融、公共、ヘルスケアなどの業界では隔離するだけでは 要求を満たせない 
HDFS Transparent Encryption (HDFS-6134)
Copyright © 2014 NTT DATA Corporation 7 
 
ファイルを暗号化してHDFSを構成するディスクに書き込む 
 
暗号化方式として、AES-CTRを採用 
- 
ファイルサイズに変化がない 
- 
暗号/復号処理が並列化可能 
- 
seek、appendも可能 
 
暗号/復号鍵は、Key Management Server(HADOOP-10433)で 管理 
HDFS Transparent Encryption (HDFS-6134)
Copyright © 2014 NTT DATA Corporation 8 
 
背景 
 
HDFSに入れるデータにも、よく処理されるものとそうでないものがある 
 
頻繁に処理されるデータをSSDに置いて、データの読み込み/書き込 みを高速化したい(例: HBaseのWAL) 
 
逆に、ほとんど処理されないデータは、CPUやメモリが低スペックなアー カイブ領域に配置したい 
 
レプリカ配置をより細かく管理する仕組みを実装 
 
HDFSを構成する各ディスクに対して、Storage Typeを指定 
 
管理者が各ディレクトリにStorage Policy(Lasy_Persist, All_SSD, One_SSD, Hot, Warm, Cold...)を指定 
Archival Storage (HDFS-6584) 
$ hdfs dfsadmin -setStoragePolicy <path> <policyName>
Copyright © 2014 NTT DATA Corporation 9 
 
レプリカは以下のように配置される 
Storage Typeに関する補足 
RAM_DISK: 各DataNodeでtmpfsを設定して、"RAM_DISK"に指定 
-tmpfsへの書き込みは、HDFS-6581で実装済 
-書き込み速度を上げるため、レプリカ数は1を想定 
ARCHIVE: ディスク容量に対してCPUやメモリが低スペックな環境を "ARCHIVE"に指定 
Archival Storage (HDFS-6584) 
Storage Policy 
Block Placement (n replicas) 
Lazy_Persist 
RAM_DISK: 1, DISK: n-1 
All_SSD 
SSD: n 
One_SSD 
SSD: 1, DISK: n-1 
Hot(default) 
DISK: n 
Warm 
DISK: 1, ARCHIVE: n-1 
Cold 
ARCHIVE: n
Copyright © 2014 NTT DATA Corporation 10 
 
背景 
 
ResourceManagerは、YARNにおける単一障害点 
 
Hadoop 2.4でHA化された (YARN-149)が、機能に制限があった 
- 
ResourceManagerがfail overすると、全てのApplicationMasterを再起動 
- 
動作中のcontainerは全てkillされる 
- 
つまり、長期ジョブが走っている場合にやり直しになってしまう 
 
Phase 2での改善 
 
ApplicationMasterの再起動は不要 
 
動作中のcontainerがkillされることもない 
ResourceManager Restart Ph.2(YARN-556)
Copyright © 2014 NTT DATA Corporation 11 
 
背景 
 
NodeManagerはYARNの単一障害点ではない 
- 
NodeManagerが停止すると、別のNodeManagerで処理が再実行される 
 
メンテナンスやアップグレードによる停止の場合には、別の NodeManagerで処理を再実行させるのではなく、再起動後に処理を 途中から実行したい 
 
処理状況をローカルに保存 
 
ローカルディスクにcontainerの処理状況と、Applicationの処理状況 を書き込む 
 
NodeManager起動時に処理状況を読みこんで、途中から処理 
 
RM Restart Phase 2との組み合わせで、Rolling Upgrade(YARN-666)が実現可能 
NodeManager Restart (YARN-1336)
Copyright © 2014 NTT DATA Corporation 12 
 
今後も次々と機能が追加されていく予定 
 
YARN Rolling Upgrades (YARN-666) 
 
Support for admin-specified labels in YARN (YARN- 796) 
 
Automatic, shared cache for YARN application artifacts (YARN-1492) 
 
Erasure Coding Support inside HDFS (HDFS-7285) 
 
などなど 
今後の開発予定
Copyright © 2011 NTT DATA Corporation 
Copyright © 2014 NTT DATA Corporation 
お問い合わせ先: 
株式会社NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 
URL: http://oss.nttdata.co.jp/hadoop 
メール: hadoop@kits.nttdata.co.jp TEL: 050-5546-2496

Hadoop 2.6の最新機能(Cloudera World Tokyo 2014 LT講演資料)

  • 1.
    Copyright © 2014NTT DATA Corporation 1 (株) NTTデータ 基盤システム事業本部 鯵坂 明 2014/11/6 Cloudera World Tokyo 2014 Hadoop 2.6の最新機能
  • 2.
    Copyright © 2014NTT DATA Corporation 2  NTTデータ OSSプロフェッショナルサービス  Hadoop関連のR&Dやシステム開発に従事  約1年前からHadoop本体の開発に参加  ドキュメント  バグフィックス  運用強化  などなど  パッチのマージ数通算約100件  日本にいる人の中では、トップ 自己紹介:鯵坂 明 (あじさか あきら)
  • 3.
    Copyright © 2014NTT DATA Corporation 3  Hadoop 2系のGA(2.2.0)以来、最も大きなリリース  848件のissueが解決された - 2.3だと606件、2.4や2.5はそれより少ない  JDK6での動作をサポートするのは、これで最後  2.7以降は、JDK6で動作しない  まだrelease voteが始まっていないが、11月中にリリースさ れると思われる Hadoop 2.6
  • 4.
    Copyright © 2014NTT DATA Corporation 4  バージョンごとの機能一覧はwikiで確認できる  http://wiki.apache.org/hadoop/Roadmap Hadoop 2.6の最新機能
  • 5.
    Copyright © 2014NTT DATA Corporation 5  今回紹介する機能は、以下の通り  HDFS  Transparent Encryption (HDFS-6134)  Archival Storage (HDFS-6584)  YARN  ResourceManager Restart Phase 2 (YARN-556)  NodeManager Restart (YARN-1336)  どれも現在開発が進められている最新機能 Hadoop 2.6の最新機能
  • 6.
    Copyright © 2014NTT DATA Corporation 6  背景  HDFSに暗号化の機能は存在しなかった - ブロックの中身はDataNodeのディスクからそのまま読めてしまう  もともと、Hadoopに対するセキュリティは、クラスタへのアクセスを 隔離することで担保されていた  だが、金融、公共、ヘルスケアなどの業界では隔離するだけでは 要求を満たせない HDFS Transparent Encryption (HDFS-6134)
  • 7.
    Copyright © 2014NTT DATA Corporation 7  ファイルを暗号化してHDFSを構成するディスクに書き込む  暗号化方式として、AES-CTRを採用 - ファイルサイズに変化がない - 暗号/復号処理が並列化可能 - seek、appendも可能  暗号/復号鍵は、Key Management Server(HADOOP-10433)で 管理 HDFS Transparent Encryption (HDFS-6134)
  • 8.
    Copyright © 2014NTT DATA Corporation 8  背景  HDFSに入れるデータにも、よく処理されるものとそうでないものがある  頻繁に処理されるデータをSSDに置いて、データの読み込み/書き込 みを高速化したい(例: HBaseのWAL)  逆に、ほとんど処理されないデータは、CPUやメモリが低スペックなアー カイブ領域に配置したい  レプリカ配置をより細かく管理する仕組みを実装  HDFSを構成する各ディスクに対して、Storage Typeを指定  管理者が各ディレクトリにStorage Policy(Lasy_Persist, All_SSD, One_SSD, Hot, Warm, Cold...)を指定 Archival Storage (HDFS-6584) $ hdfs dfsadmin -setStoragePolicy <path> <policyName>
  • 9.
    Copyright © 2014NTT DATA Corporation 9  レプリカは以下のように配置される Storage Typeに関する補足 RAM_DISK: 各DataNodeでtmpfsを設定して、"RAM_DISK"に指定 -tmpfsへの書き込みは、HDFS-6581で実装済 -書き込み速度を上げるため、レプリカ数は1を想定 ARCHIVE: ディスク容量に対してCPUやメモリが低スペックな環境を "ARCHIVE"に指定 Archival Storage (HDFS-6584) Storage Policy Block Placement (n replicas) Lazy_Persist RAM_DISK: 1, DISK: n-1 All_SSD SSD: n One_SSD SSD: 1, DISK: n-1 Hot(default) DISK: n Warm DISK: 1, ARCHIVE: n-1 Cold ARCHIVE: n
  • 10.
    Copyright © 2014NTT DATA Corporation 10  背景  ResourceManagerは、YARNにおける単一障害点  Hadoop 2.4でHA化された (YARN-149)が、機能に制限があった - ResourceManagerがfail overすると、全てのApplicationMasterを再起動 - 動作中のcontainerは全てkillされる - つまり、長期ジョブが走っている場合にやり直しになってしまう  Phase 2での改善  ApplicationMasterの再起動は不要  動作中のcontainerがkillされることもない ResourceManager Restart Ph.2(YARN-556)
  • 11.
    Copyright © 2014NTT DATA Corporation 11  背景  NodeManagerはYARNの単一障害点ではない - NodeManagerが停止すると、別のNodeManagerで処理が再実行される  メンテナンスやアップグレードによる停止の場合には、別の NodeManagerで処理を再実行させるのではなく、再起動後に処理を 途中から実行したい  処理状況をローカルに保存  ローカルディスクにcontainerの処理状況と、Applicationの処理状況 を書き込む  NodeManager起動時に処理状況を読みこんで、途中から処理  RM Restart Phase 2との組み合わせで、Rolling Upgrade(YARN-666)が実現可能 NodeManager Restart (YARN-1336)
  • 12.
    Copyright © 2014NTT DATA Corporation 12  今後も次々と機能が追加されていく予定  YARN Rolling Upgrades (YARN-666)  Support for admin-specified labels in YARN (YARN- 796)  Automatic, shared cache for YARN application artifacts (YARN-1492)  Erasure Coding Support inside HDFS (HDFS-7285)  などなど 今後の開発予定
  • 13.
    Copyright © 2011NTT DATA Corporation Copyright © 2014 NTT DATA Corporation お問い合わせ先: 株式会社NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス URL: http://oss.nttdata.co.jp/hadoop メール: hadoop@kits.nttdata.co.jp TEL: 050-5546-2496