Introduction to Hadoop

623 views

Published on

Introduction to Hadoop, 1st TechParty@UIC, zhique

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
623
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
20
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Introduction to Hadoop

  1. 1. 1st TechParty@UIC zhiqueHadoop IntroHDFS & MapReduce
  2. 2. Background1. Lucene和Nutch Lucene: 纯Java的高性能全文索引引擎工具包。 Nutch:以Lucene为基础实现的搜索引擎应用。2. Google, GFS和MapReduce论文 Hadoop,从Nutch中剥离出来的分布式计算模块。
  3. 3. Application1. 阿里巴巴:垂直商业搜索引擎2. 百度:日志分析、网页数据库3. Facebook:日志存储、分析4. Twitter:Tweet、用户数据存储分析 快、简单、横向扩招、不用钱!
  4. 4. HDFS - Hadoop分布式文件系统设计 1. 一次写入,多次读取 2. 文件系统块大小默认为64MB 3. 管理者-工作者模式 namenode和datanode 4. 类*nix的文件操作命令 hadoop fs -mkdir books 有何缺陷?
  5. 5. HDFS的读写模式
  6. 6. HDFS的读写模式
  7. 7. 避免带宽瓶颈的机制 代码往数据迁移
  8. 8. MapReduce算法及计算框架
  9. 9. Hadoop生态圈1. Pig 一种数据流语言和运行环境,用以检索非常大的数据集。Pig 运行在MapReduce和HDFS的集群上。2. Hive 一个分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基于 SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。3. HBase 一个分布式、按列存储数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)。4. ZooKeeper 一个分布式、可用性高的协调服务。ZooKeeper提供分布式锁之类的基本服务用于构建分布式应用。
  10. 10. ReferencesHadoop: The Definitive Guide, OREILLY, Yahoo!Press
  11. 11. TechParty@UICThank you!

×