0
Running Hadoop On Ubuntu Linux
<ul><li>Introduction </li></ul><ul><li>Single-Node Cluster </li></ul><ul><ul><li>http://www.michael-noll.com/wiki/Running_...
<ul><li>HDFS is  highly fault-tolerant  and is designed to be  deployed on low-cost hardware . HDFS provides high throughp...
Introduction (con’t) HDFS Architecture (source:http://hadoop.apache.org/core/docs/current/hdfs_design.html
Introduction (con’t) HDFS multi-node overview (source:http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(Mul...
Introduction (con’t) HDFS multi-node cluster Architecture (source:http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubunt...
<ul><li>Prerequisites </li></ul><ul><ul><li>Sun JAVA 6 </li></ul></ul><ul><li>Add a hadoop system user </li></ul><ul><li>C...
<ul><li>Formatting the name node </li></ul><ul><ul><li><HADOOP_INSTALL>/hadoop/bin/hadoop namenode -format </li></ul></ul>...
<ul><li>http ://localhost:50030/  - web UI for MapReduce job tracker(s) </li></ul><ul><li>http://localhost:50060/  - web U...
<ul><li>/etc/hosts </li></ul><ul><li>SSH access </li></ul><ul><li>Configuration </li></ul><ul><ul><li><HADOOP_INSTALL>/con...
<ul><li>Make a large cluster smaller by taking out a bunch of nodes simultaneously. How can this be done? </li></ul><ul><u...
<ul><li>NameNode backup </li></ul><ul><li>NameNode shutdown </li></ul><ul><li>DataNode shutdown </li></ul><ul><li>Add Data...
Cloud Storage System Architecture HDFS Client HDFS DataNode HDFS NameNode HDFS DataNode … iSCSI Target iSCSI Initiator VM ...
Read Flow HDFS Client HDFS DataNode HDFS NameNode iSCSI Target iSCSI Initiator VM Volume I.1 I.2 I.4 1 4 5 6 I.5 I.3 I.4 D...
Write Flow HDFS DataNode 1 HDFS NameNode 1 4 5 6 HDFS DataNode 2 7 VM (Domain-U) HDFS Client iSCSI Target iSCSI Initiator ...
Upcoming SlideShare
Loading in...5
×

Running hadoop on ubuntu linux

5,744

Published on

Published in: Technology
1 Comment
5 Likes
Statistics
Notes
No Downloads
Views
Total Views
5,744
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
356
Comments
1
Likes
5
Embeds 0
No embeds

No notes for slide
  • 說明專案規劃的重要性 、與生命週期各階段的關係及相關流程領域 。 說明 CMMI 專案規劃流程領域的規範內容 。 提供一些專案規劃範例程序 。 說明如何規劃製作專案規劃程序 。
  • 說明專案規劃的重要性 、與生命週期各階段的關係及相關流程領域 。 說明 CMMI 專案規劃流程領域的規範內容 。 提供一些專案規劃範例程序 。 說明如何規劃製作專案規劃程序 。
  • 說明專案規劃的重要性 、與生命週期各階段的關係及相關流程領域 。 說明 CMMI 專案規劃流程領域的規範內容 。 提供一些專案規劃範例程序 。 說明如何規劃製作專案規劃程序 。
  • 說明專案規劃的重要性 、與生命週期各階段的關係及相關流程領域 。 說明 CMMI 專案規劃流程領域的規範內容 。 提供一些專案規劃範例程序 。 說明如何規劃製作專案規劃程序 。
  • 說明專案規劃的重要性 、與生命週期各階段的關係及相關流程領域 。 說明 CMMI 專案規劃流程領域的規範內容 。 提供一些專案規劃範例程序 。 說明如何規劃製作專案規劃程序 。
  • 說明專案規劃的重要性 、與生命週期各階段的關係及相關流程領域 。 說明 CMMI 專案規劃流程領域的規範內容 。 提供一些專案規劃範例程序 。 說明如何規劃製作專案規劃程序 。
  • 說明專案規劃的重要性 、與生命週期各階段的關係及相關流程領域 。 說明 CMMI 專案規劃流程領域的規範內容 。 提供一些專案規劃範例程序 。 說明如何規劃製作專案規劃程序 。
  • 說明專案規劃的重要性 、與生命週期各階段的關係及相關流程領域 。 說明 CMMI 專案規劃流程領域的規範內容 。 提供一些專案規劃範例程序 。 說明如何規劃製作專案規劃程序 。
  • 說明專案規劃的重要性 、與生命週期各階段的關係及相關流程領域 。 說明 CMMI 專案規劃流程領域的規範內容 。 提供一些專案規劃範例程序 。 說明如何規劃製作專案規劃程序 。
  • 說明專案規劃的重要性 、與生命週期各階段的關係及相關流程領域 。 說明 CMMI 專案規劃流程領域的規範內容 。 提供一些專案規劃範例程序 。 說明如何規劃製作專案規劃程序 。
  • 說明專案規劃的重要性 、與生命週期各階段的關係及相關流程領域 。 說明 CMMI 專案規劃流程領域的規範內容 。 提供一些專案規劃範例程序 。 說明如何規劃製作專案規劃程序 。
  • Transcript of "Running hadoop on ubuntu linux"

    1. 1. Running Hadoop On Ubuntu Linux
    2. 2. <ul><li>Introduction </li></ul><ul><li>Single-Node Cluster </li></ul><ul><ul><li>http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(Single-Node_Cluster) </li></ul></ul><ul><li>Multi-Node Cluster </li></ul><ul><ul><li>http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(Multi-Node_Cluster) </li></ul></ul><ul><li>Decommission </li></ul><ul><li>Issues </li></ul><ul><li>ITRI Cloud Storage System Architecture </li></ul>Agenda
    3. 3. <ul><li>HDFS is highly fault-tolerant and is designed to be deployed on low-cost hardware . HDFS provides high throughput access to application data and is suitable for applications that have large data sets . HDFS relaxes a few POSIX requirements to enable streaming access to file system data. </li></ul>Introduction
    4. 4. Introduction (con’t) HDFS Architecture (source:http://hadoop.apache.org/core/docs/current/hdfs_design.html
    5. 5. Introduction (con’t) HDFS multi-node overview (source:http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(Multi-Node_Cluster)
    6. 6. Introduction (con’t) HDFS multi-node cluster Architecture (source:http://www.michael-noll.com/wiki/Running_Hadoop_On_Ubuntu_Linux_(Multi-Node_Cluster)
    7. 7. <ul><li>Prerequisites </li></ul><ul><ul><li>Sun JAVA 6 </li></ul></ul><ul><li>Add a hadoop system user </li></ul><ul><li>Configuration SSH public key authentication </li></ul><ul><ul><li>Single-Node Cluster need to access localhost </li></ul></ul><ul><li>Disabling IPv6 </li></ul><ul><li>Hadoop installation </li></ul><ul><li>Configuration </li></ul><ul><ul><li><HADOOP_INSTALL>/conf/hadoop-env.sh </li></ul></ul><ul><ul><li><HADOOP_INSTALL>/conf/core-site.xml </li></ul></ul><ul><ul><li><HADOOP_INSTALL>/conf/mapred-site.xml </li></ul></ul><ul><ul><li><HADOOP_INSTALL>/conf/hdfs-site.xml </li></ul></ul>Single-Node Cluster
    8. 8. <ul><li>Formatting the name node </li></ul><ul><ul><li><HADOOP_INSTALL>/hadoop/bin/hadoop namenode -format </li></ul></ul><ul><li>Starting/Stop your single-node cluster </li></ul><ul><ul><li><HADOOP_INSTALL>/bin/start-all.sh </li></ul></ul><ul><ul><li><HADOOP_INSTALL>/bin/stop-all.sh </li></ul></ul><ul><li>Check hadoop processes are running </li></ul><ul><ul><li>jps </li></ul></ul><ul><li>Copy local example data to HDFS </li></ul><ul><ul><li><HADOOP_INSTALL>/ bin/hadoop dfs -copyFromLocal /tmp/gutenberg gutenberg </li></ul></ul><ul><ul><li><HADOOP_INSTALL>/ bin/hadoop dfs –ls </li></ul></ul><ul><ul><li><HADOOP_INSTALL>/ bin/hadoop dfs -ls gutenberg </li></ul></ul><ul><li>Run the MapReduce job </li></ul><ul><ul><li>bin/hadoop jar hadoop-0.20.2-examples.jar wordcount gutenberg gutenberg-output </li></ul></ul>Single-Node Cluster(con’t)
    9. 9. <ul><li>http ://localhost:50030/  - web UI for MapReduce job tracker(s) </li></ul><ul><li>http://localhost:50060/  - web UI for task tracker(s) </li></ul><ul><li>http://localhost:50070/  - web UI for HDFS name node(s) </li></ul>Single-Node Cluster(con’t)
    10. 10. <ul><li>/etc/hosts </li></ul><ul><li>SSH access </li></ul><ul><li>Configuration </li></ul><ul><ul><li><HADOOP_INSTALL>/conf/masters </li></ul></ul><ul><ul><ul><li>master </li></ul></ul></ul><ul><ul><li><HADOOP_INSTALL>/conf/slaves </li></ul></ul><ul><ul><ul><li>master </li></ul></ul></ul><ul><ul><ul><li>slave </li></ul></ul></ul><ul><ul><ul><li>anotherslave01 </li></ul></ul></ul><ul><ul><ul><li>anotherslave02 </li></ul></ul></ul><ul><ul><ul><li>anotherslave03 </li></ul></ul></ul><ul><ul><li><HADOOP_INSTALL>/ conf/core-site.xml </li></ul></ul><ul><ul><ul><li><value> hdfs://master:54310 </value> </li></ul></ul></ul><ul><ul><li><HADOOP_INSTALL>/ conf/mapred-site.xml </li></ul></ul><ul><ul><li><HADOOP_INSTALL>/ conf/hdfs-site.xml </li></ul></ul>Multi-Node Cluster
    11. 11. <ul><li>Make a large cluster smaller by taking out a bunch of nodes simultaneously. How can this be done? </li></ul><ul><ul><li>Create a file “excludes” </li></ul></ul><ul><ul><ul><li>slave97 </li></ul></ul></ul><ul><ul><ul><li>slave98 </li></ul></ul></ul><ul><ul><ul><li>slave99 </li></ul></ul></ul><ul><ul><li>Add configuration in <HADOOP_INSTALL>/conf/hadoop-site.xml </li></ul></ul><ul><ul><ul><li>  <property>                                                 <name>dfs.hosts.exclude</name>          <value>excludes</value>   </property>      </li></ul></ul></ul><ul><ul><li><HADOOP_INSTALL>/bin/hadoop dfsadmin -refreshNodes </li></ul></ul>Decommission
    12. 12. <ul><li>NameNode backup </li></ul><ul><li>NameNode shutdown </li></ul><ul><li>DataNode shutdown </li></ul><ul><li>Add DataNode dynamically </li></ul><ul><li>Remove DataNode dynamically(Decommission?) </li></ul><ul><li>How to tune file/block size? </li></ul><ul><li>Big data testing </li></ul>Issues
    13. 13. Cloud Storage System Architecture HDFS Client HDFS DataNode HDFS NameNode HDFS DataNode … iSCSI Target iSCSI Initiator VM Volume DMS
    14. 14. Read Flow HDFS Client HDFS DataNode HDFS NameNode iSCSI Target iSCSI Initiator VM Volume I.1 I.2 I.4 1 4 5 6 I.5 I.3 I.4 DMS 2 3
    15. 15. Write Flow HDFS DataNode 1 HDFS NameNode 1 4 5 6 HDFS DataNode 2 7 VM (Domain-U) HDFS Client iSCSI Target iSCSI Initiator VM Volume I.1 I.2 I.4 I.5 I.3 I.4 9 8 10 7.1 8.2 11 12 DMS 2 3
    1. A particular slide catching your eye?

      Clipping is a handy way to collect important slides you want to go back to later.

    ×