Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)

1,676 views

Published on

日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料
「HDFS新機能総まとめin 2015」
鯵坂明(NTTデータ)

Published in: Technology
  • Be the first to comment

HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)

  1. 1. Copyright © 2015 NTT DATA Corporation 2015/11/10 NTTデータ 鯵坂 明 HDFS新機能総まとめ in 2015 Cloudera World Tokyo 2015 ライトニングトーク
  2. 2. 2Copyright © 2015 NTT DATA Corporation Agenda  Hadoop 2.6の新機能  Hadoop 2.7の新機能  今後の新機能
  3. 3. 3Copyright © 2015 NTT DATA Corporation Hadoop 2.6 (2014-11-18)  Hot swap volumes  ディスクの設定 (dfs.datanode.data.dir) を変更  リロード  DataNodeは動作を継続  考えられる応用例  DataNodeを停止させず、故障したディスクを新品に換える  必要条件:  dfs.datanode.failed.volumes.tolerated > 1  ハード側がディスクのhot swapに対応していること $ hdfs dfsadmin -reconfig datanode <host:port>
  4. 4. 4Copyright © 2015 NTT DATA Corporation HTrace対応  Integrate Apache HTrace  HDFSのノード間で発行されるRPCをトレース  ボトルネックの特定が容易に Time Span A trace id: 12345 parent: rootnode 1 Span B trace id: 12345 parent: Anode 2 Span C Span Dnode 3 RPC RPC RPC Hadoop 2.6
  5. 5. 5Copyright © 2015 NTT DATA Corporation Heterogeneous Storages  課題  SSDが手ごろな価格になっている  よく使われるデータはSSDに置きたい  Storage typeとBlock placement policyを導入  Type: HDD, SSD, ARCHIVE, ...  Policy: One_SSD, HOT, WARM, COLD, ...  Example: A -> One_SSD, B -> HOT DN1 SSD DISK DISK DISK A B DN2 SSD DISK DISK DISK A B DN3 SSD DISK DISK DISK A B Hadoop 2.6
  6. 6. 6Copyright © 2015 NTT DATA Corporation  利用方法  hdfs-site.xmlを編集し、各ディスクのstorage typeを認識させる  Block placement policyを設定  データを置いてからポリシーを変更することもできる  Moverを起動して、ポリシーを満たすようにブロックを 再配置させる Hadoop 2.6 Heterogeneous Storages <parameter> <name>dfs.datanode.data.dir</name> <value>[SSD]file:///data/ssd,[HDD]file:///data/hdd</value> </parameter> $ hdfs setstoragepolicies -setStoragePolicy -path <path> -policy <policy>
  7. 7. 7Copyright © 2015 NTT DATA Corporation Archival Storage  DISKとARCHIVEの違い  あまり使われないデータはARCHIVEに  eBayの事例: ストレージの単価を1/5に [1]  低スペックのDataNodeをアーカイブ用途に使う  クラスタを分割する必要がないことが、長所 [1] Reduce Storage Costs by 5x Using The New HDFS Tierd Storage Feature http://www.slideshare.net/Hadoop_Summit/reduce-storage-costs-by-5x-using-the-new-hdfs- tiered-storage-feature Regular Node Archival Node Drives 12 HDDs 60 HDDs CPU 32 Cores 4 Cores Memory 128GB 64GB Run NodeManager Yes No Hadoop 2.6
  8. 8. 8Copyright © 2015 NTT DATA Corporation Transparent Encryption  課題  OSレベルの攻撃からデータを守れなかった  End-to-endの "透過的な" 暗号化を提供  Encryption Zone (EZ) に配置するデータは、クライ アント側で暗号化される  アプリケーションに新たな実装を増やす必要がない Hadoop 2.6 Client DataNode DataTransferProtocol can be encrypted DISK Data DataEncrypted data NOT encrypted! $ hdfs crypto -createZone -keyName myKey -path /encrypted
  9. 9. 9Copyright © 2015 NTT DATA Corporation Transparent Encryption: 高速な暗号/復号  スレーブ3台の簡単なベンチマーク  m3.xlarge, 4 core Xeon E5-2670 v2  AES-NIを利用  高速な命令セット (Java実装より10倍くらい速い)  注意  暗号化が正しく処理されない (HADOOP-11343)  元に戻せない可能性がある  2.6.1以上のバージョンが必須 Hadoop 2.6 Encryption Off Encryption On 1GB Teragen 17 sec 18 sec 1GB Terasort 47 sec 49 sec
  10. 10. 10Copyright © 2015 NTT DATA Corporation Hadoop 2.7 (2015-07-06)  Quota per storage type  Truncate API  Files with variable-length blocks  Web UI for NFS gateway  NNTop: top-like tool for NameNode  各操作ごとの、トップユーザランキング  Metrics化されている  fsck -blockId option  blockIdに紐付いたファイルの情報を出力  トラブルシュートに便利
  11. 11. 11Copyright © 2015 NTT DATA Corporation INotify for HDFS  課題  Hadoopのコンポーネントでキャッシュを使うもの がある  HiveはHDFSのパスをキャッシュする  Impalaはblockの位置をキャッシュする  では、いつキャッシュを更新するのか?  解決策  Linux inotifyと同様のツールを実装  NameNodeのログを監視することなく、名前空間 の変更を把握できる Hadoop 2.7
  12. 12. 12Copyright © 2015 NTT DATA Corporation  NameNodeに定期的にポーリングする  注意  Truncate APIに対応していない (HDFS-8742)  Fixed in 2.8.0 INotify for HDFS Client NameNode 1. Poll any events after #XX 2. Return events after #XX Caches the highest event number Hadoop 2.7
  13. 13. 13Copyright © 2015 NTT DATA Corporation Many features are being developed  2.8 (not released)  Support OAuth2 in WebHDFS  RPC Congestion control  2.9 or 3.0 (not released)  Erasure Coding  Feature branches  Ozone: Object store (HDFS-7240)  BlockManager Scalability Improvements (HDFS-7836)  HTTP/2 support for DataTransferProtocol (HDFS-7966)  Implement an async pure c++ HDFS client (HDFS- 8707)
  14. 14. 14Copyright © 2015 NTT DATA Corporation RPC Congestion Control  課題  NameNodeのRPCキューが FIFO  以下のようなDDoS攻撃で、最悪クラスタが死ぬ  解決策  RPCキューにFair schedulingを導入 (2.6.0)  2.8で設定方法が簡単になるかも (HDFS-8820)  キューから溢れたときに、exponential backoffで リトライさせる (2.8.0) while (true) { dfs.exists("/data"); } Don't do this! Hadoop 2.8
  15. 15. 15Copyright © 2015 NTT DATA Corporation Erasure Coding  課題  ストレージにかかるコストを下げたい  レプリカを3冗長で持つのがもったいない  解決策  Erasure Codeを使う 3-replication (6,3)-Reed-Solomon Tolerates 2 failures 3 failures Disk Usage 3x 1.5x
  16. 16. Copyright © 2011 NTT DATA Corporation Copyright © 2015 NTT DATA Corporation
  17. 17. 17Copyright © 2015 NTT DATA Corporation References  Apache Hadoop Docs: http://hadoop.apache.org/docs/current/  Heterogeneous Storages (HDFS-5682)  Reduce Storage Costs by 5x Using The New HDFS Tiered Storage Feature: http://www.slideshare.net/Hadoop_Summit/reduce- storage-costs-by-5x-using-the-new-hdfs-tiered-storage-feature  Transparent Encryption (HDFS-6134)  Transparent Encryption in HDFS: http://www.slideshare.net/Hadoop_Summit/transparent- encryption-in-hdfs  INotify (HDFS-6634)  Keep Me in the Loop: Introducing HDFS Inotify: http://www.slideshare.net/Hadoop_Summit/keep-me-in-the-loop- inotify-in-hdfs
  18. 18. 18Copyright © 2015 NTT DATA Corporation References  RPC congestion control (HADOOP-9640, HADOOP-10597, HDFS-8820)  Improving HDFS Availability with Hadoop RPC Quality of Service: http://www.slideshare.net/MingMa4/hadoop- rpcqoshadoopsummit2015  Erasure Coding (HDFS-7285)  HDFS Erasure Code Storage - Same Reliability at Better Storage Efficiency: http://www.slideshare.net/Hadoop_Summit/hdfs- erasure-code-storage-same-reliability-at-better-storage-efficiency

×