Hadoop HDFS: The Ultimate Storage


Published in: Technology
  1. 1. Hadoop HDFSThe Ultimate Storagetagomoris2013/05/20 Cassandra Casual #113年5月20日月曜日
  2. 2. Nodes• NameNode (metadata)• 1• or 2 (NamenodeHA + 3 JournalNodes)• DataNode (blocks)• 3~ nodes• Rack awareness13年5月20日月曜日
  3. 3. Filesystem• Metadata on Namenode JVM heap• "OK, Namenode should have giant RAM"• File with Blocks (default 64MB)• Block level compression & parallel read13年5月20日月曜日
  4. 4. Compression• Gzip, Bzip2, ....• By filename suffix!• By HDFS specific container file feature13年5月20日月曜日
  5. 5. Replication• Block level replication• Default 3 replicas• Automatically replicated13年5月20日月曜日
  6. 6. Rebalancing• ``13年5月20日月曜日
  7. 7. Protocol• Java (DFSClient) Native Protocol• Binary protocol• Version sensitive• All clients communicate with all nodes13年5月20日月曜日
  8. 8. Protocol #2• WebHDFS (Hadoop v1.0~)• HTTP• Protocol version defined• All clients communicate with all nodes• HttpFs (Hadoop v2.0~)• HTTP proxy server for DFSClient• All clients communicate with a node13年5月20日月曜日
  9. 9. Concurrency• NONE• Concurrent write(append) breaks file13年5月20日月曜日
  10. 10. Performance• HDFS is for sequencial access• and for large (128MB or more) files• HDFS is not for random access• HBase is perfect software for you!13年5月20日月曜日
  11. 11. Admin tools• WebUI with poor CSS• CLI `hdfs dfsadmin`13年5月20日月曜日
  12. 12. Conclusion• Use just for Hadoop batches13年5月20日月曜日