SlideShare a Scribd company logo
1 of 47
Download to read offline
利用 DRBL live 快速佈 
署簡易型 Hadoop 叢集 
蔡育欽 國家高速網路中心
Outline 
● DRBL / Clonezilla 
● DRBL-live 
● Hadoop 
● Drbl-live-hadoop 
● [Video | Live ] Demo 
● Hadoop commands
國網中心自由軟體開發 
高速計算技術及經驗發展之核心技術 
企鵝龍DRBL 再生龍 
Clonezilla 
適用完整系統備份、裸機 
還原或災難復原 
(Diskless Remote Boot in Linux) 
無碟環境,適合將整個電 
腦教室轉換成純自由軟體 
環境 
是自由!不僅是免費… 
使用、複製、修改與再散播軟體的自由。免費是附加價值。人人皆可自由享用。
DRBL/Clonezilla 使用者分佈 
>>55,,550000,,000000 DRBL/Clonezilla 下載人次
Clonezilla 
● Clonezilla [OCS (Opensource Clone System)] 
● Clonezilla 是一完整的硬碟資料複製的工具,類似 Ghost®(Symantec) 或 
是Rembo(Acquired by IBM Tivoli® software)/ Acronis®(True Image) 
● 處理元件包含: 
– 實體資料 : 分割區資料、 LVM2 
– 隱藏磁區 
● Block base 備份方式 
– 只備份有使用之區塊,提高備份還原效能 
– Smart copying 
– 支援 Grub 1/2 ( 恢復、重建 ) 
– 檔案式架構之印象檔:格式通透、公開、標準格式;易於彈性調整
= + + 
Server 
DRBL 
Diskfull 
PC 
Diskless 
PC 
image source: www.mren.com.tw
DRBL - Diskless Remote Boot in Linux 
● pxe/etherboot + nfs + nis – 站在巨人的肩膀上 
● 支援多元化的電腦教學- Linux 與微軟 Windows可同時並存 
● DRBL環境下,OS存在server端,client端的作業系統可保留 
● 簡化管理工作 
● 所有的服務集中在server管理,減少檢視每台client軟體的困擾 
● 作業系統與軟體只需要在server上安裝一遍即可 
● 硬體與安裝雖簡化,軟體卻完整 
● 軟體和逐一安裝的機器一樣,沒有任何偷工減料
DRBL Environment 
DRBL erver 
NIC 2 NIC 3 NIC 4 
private IP private IP private IP 
switch 1 
switch 2 switch 3 
node001 node013 node027 node040 
node014 ~ node028 ~ 
~
DRBL的建議規格 
以下所列的規格僅供參考,採購時可依據經費與當時最佳的設備來採購,中 
央政府各機關、學校委託的中央信託局集中採購案中有符合使用的設備 
高效能計算(HPC)的需求是永無止境的 
伺服器 
最低規格:CPU 450 MHz,記憶體256 MB,fast ethernet(100Mbps)網路卡多張。 
建議規格:CPU 2.6 GHz,記憶體1 GB,Gigabits網路卡4張。 
客戶端 
最低規格:CPU 300 MHz,記憶體128 MB,100Mbps網路卡,若是新購電腦的話建議直接買有支援網 
路開機(PXE)的網卡或是內建PXE功能網卡的主機板。 
網路連接設備 
最低需求:100Mbps的交換器。 
建議規格:以40人的電腦教室為例,兩台24埠100Mbps的交換器,每台上面另外個別有2個Gigabits 
ports。
Modes of DRBL/Clonezilla 
Full DRBL Full Clonezilla DRBL SSI Clonezilla Box 
/etc, /var of client NFS­based 
NFS­based 
Tmpfs­based 
Tmpfs­based 
Kept Kept Gone Gone 
~ 50 ­100 
MB* ~ 50­100MB* 
0 0 
253 253 253 253 
Files in /etc and 
/var of client after 
reboot 
Extra space in 
server/client 
Max client #/eth­ernet 
card in 
server 
* depends on the packages installed in the server
DRBL-live 
● DRBL live 
– 透過光碟或者隨身碟直接開機 
– 當一台DRBL伺服器 
– 所有的程式不需要裝在那台電腦的硬碟中。 
● 圖形介面XFCE 
● 不需要安裝 直接操作 所有DRBL 功能
Hadoop
Hadoop 
● 以Google App Engine平台為仿效對象 
● 創始者 Doug Cutting 
– Apache Lucene文字搜尋引擎,Java設計的高效能文件索引引擎API 
– 進而開發了Apache Nutch 
● 以Java開發 
● 自由軟體 
● 上千個節點與Petabyte等級的資料量 
● 為Apache 軟體基金會的 top level project
起源:2002-2004 
● Lucene 
– 用Java設計的高效能文件索引引擎API 
– 索引文件中的每一字,讓搜尋的效率比傳統 
– 逐字比較還要高的多 
● Nutch 
– nutch是基於開放原始碼所開發的web search 
– 利用Lucene函式庫開發 
– 在Nutch 0.8版之後,Hadoop為獨立項目演變為獨立的Hadoop 
開發套件
起源:Google論文 
● Google File System 
– 可擴充的分散式檔案系統 
– 設計目的在於可以給大量的用戶提供總體性 
– 能較高的服務 
– 適用於分散式、對大量資訊進行存取的應用 
– 可運作在一般的普通主機上,且提供錯誤容忍的能力 
● “The Google File System“ 發表於SOSP' 03 
October,並將設計的概念公開 
● Dong Cutting 開始參考論文來實做
起源:2004~ 
● Dong Cutting 開始參考論文來實做 
● Added DFS & MapReduce implement to Nutch 
● Nutch 0.8版之後,Hadoop為獨立項目 
● Yahoo 於2006年僱用Dong Cutting 組隊專職開發 
– Team member = 14 (engineers, clusters, users, etc. ) 
● Hadoop命名的概念也非常類似當年Google命名的由 
來,Google是英文單詞「Googol」按照通常的英語 
拼法改寫而來的。Googol是一個大數的名稱,也就是 
10的100次方,表示1後面加上100個零。
系統特色 
● 巨量 - 擁有儲存與處理大量資料的能力 
● 經濟 - 可以用在由一般PC所架設的叢集環境內 
● 效率 - 籍由平行分散檔案的處理以致得到快速的回應 
● 可靠 - 當某節點發生錯誤,系統能即時自動的取得備份資料以 
及佈署運算資源 
● 定位 - 是用來處理與保存大量資料的雲端運算平台 
● Hadoop主要核心完全使用Java開發,而使用者端則提供C+ 
+/Java/Shell/Command等程式開發介面,目前可執行於 
Linux、Mac OS/X、Windows和Solaris作業系統,以及一 
般商用等級的伺服器
Hadoop 元件 
● Hadoop中包含了最著名的分散式檔案系統 
(HDFS)、MapReduce框架、儲存系統(HBase)等元件,以及根 
據Hadoop延伸發展的其他子專案: 
– Core:一組用於分散式檔案系統和一般性I/O之用的元件和介面。 
– ZooKeeper:分散式且高可用性的協調服務,可為建置分散式系統提供分散式鎖 
定等原始鎖定功能。 
– Hive:分散式資料倉儲,透過Hiave可管理存放於HDFS的資料,並提供根據 
SQL發展的查詢語言來查詢資料。 
– Pig:超大資料集的資料流語言以及執行環境,可在HDFS和MapReduce叢集環 
境中執行。 
– Avro:提供高效能、跨語言以及可保存資料的RPC資料序列化系統。 
– Chukwa:分散式資料收集和分析系統,其會執行收集器以便在HDFS中儲存資 
料,且會使用MapReduce來產生報表
Hadoop 架構 
雲端應用程式 
Hbase 儲存系統Map Reduse 框架 
分散式檔案系統 HDFS 
叢集伺服器
MapReduce (MRv2/YARN) 
● 新的 Hadoop MapReduce 框架命名為 
MapReduceV2 或者叫 Yarn 
● MRv2最基本的設計思想是將 
JobTracker的兩個主要功能,即資源管 
理和作業調度/監控分成兩個獨立程 
序。包含幾個部分: 
– ResourceManager(RM) 
● 調度器(Scheduler) 
● 應用管理器 
(ApplicationsManager,ASM) 
– ApplicationMaster(AM) 
● 一個具體的框架庫,它的任務是與 
RM協商獲取應用所需資源和與 
NM (NodeManager) 合作,以完 
成執行和監控task的任務
背景與動機 
● 電腦教室一般使用率不到30% 
● 個人電腦叢集一般使用量都非常高 
● 應該妥善利用電腦教室閒暇時間 
● 完善的電腦教室管理與使用機制是需要的 -> DRBL
drbl-live-hadoop 
● 整合DRBL 與 Hadoop 環境 
● 自動化佈署Hadoop 
● 彈性擴充節點 
● 有效運用計算資源
DIY 
● Tuxboot 
● Drbl-live 
● CD-Rom or Usb boot 
● Drbl-live-hadoop 
● Boot clients (datanode) 
● http://127.0.0.1:50070 
● http://127.0.0.1:8088
DRBL-live CD 下載
選擇架構
使用 Tuxboot
DRBL 主機建議
開機
鍵盤、語言
確認對外網路
執行 drbl-live-hadoop
設定網路
固定IP
準備安裝hadoop
下載中
Hadoop Cluster done
Data node Spec
BIOS 網路開機設定
開啟 Datanode
開啟狀態
JPS
確認完成
任務完成
todo 
● Storm 
● HBase 
● Zookeeper 
● Clonezilla-hadoop 
● DRBL-hadoop
Related Projects and Developers 
● DRBL 
● Clonezilla 
● Partclone 
● Tuxboot 
● Tux2Live 
● Cloudboot 
● Steven Shiau 
● Ceasar Sun 
● Thomas Tsai 
● Jimmy Chuang
DEMO
F&Q 
Thank You

More Related Content

What's hot

Hadoop Map Reduce 程式設計
Hadoop Map Reduce 程式設計Hadoop Map Reduce 程式設計
Hadoop Map Reduce 程式設計Wei-Yu Chen
 
Docker初识
Docker初识Docker初识
Docker初识hubugui
 
Docker進階探討
Docker進階探討Docker進階探討
Docker進階探討國昭 張
 
QNAP MOPCON 2015 - 輕鬆打造持續整合開發環境,使用 QNAP Docker
QNAP MOPCON 2015 -  輕鬆打造持續整合開發環境,使用 QNAP DockerQNAP MOPCON 2015 -  輕鬆打造持續整合開發環境,使用 QNAP Docker
QNAP MOPCON 2015 - 輕鬆打造持續整合開發環境,使用 QNAP DockerWu Fan-Cheng
 
百度系统部分布式系统介绍 马如悦 Sacc2010
百度系统部分布式系统介绍 马如悦 Sacc2010百度系统部分布式系统介绍 马如悦 Sacc2010
百度系统部分布式系统介绍 马如悦 Sacc2010Chuanying Du
 
How to plan a hadoop cluster for testing and production environment
How to plan a hadoop cluster for testing and production environmentHow to plan a hadoop cluster for testing and production environment
How to plan a hadoop cluster for testing and production environmentAnna Yen
 
Design realization and application of RBD NBD - Wang Li
Design realization and application of RBD NBD - Wang LiDesign realization and application of RBD NBD - Wang Li
Design realization and application of RBD NBD - Wang LiCeph Community
 
Ceph Day Beijing - Leverage Ceph for SDS in China Mobile
Ceph Day Beijing - Leverage Ceph for SDS in China MobileCeph Day Beijing - Leverage Ceph for SDS in China Mobile
Ceph Day Beijing - Leverage Ceph for SDS in China MobileDanielle Womboldt
 
Docker - 30秒生出100台伺服器
Docker - 30秒生出100台伺服器Docker - 30秒生出100台伺服器
Docker - 30秒生出100台伺服器升煌 黃
 
Docker集群管理 工具篇
Docker集群管理 工具篇Docker集群管理 工具篇
Docker集群管理 工具篇Guangya Liu
 
Bypat博客出品-服务器运维集群方法总结2
Bypat博客出品-服务器运维集群方法总结2Bypat博客出品-服务器运维集群方法总结2
Bypat博客出品-服务器运维集群方法总结2redhat9
 
Bypat博客出品-服务器运维集群方法总结
Bypat博客出品-服务器运维集群方法总结Bypat博客出品-服务器运维集群方法总结
Bypat博客出品-服务器运维集群方法总结redhat9
 
Establish The Core of Cloud Computing Application by Using Hazelcast (Chinese)
Establish The Core of  Cloud Computing Application  by Using Hazelcast (Chinese)Establish The Core of  Cloud Computing Application  by Using Hazelcast (Chinese)
Establish The Core of Cloud Computing Application by Using Hazelcast (Chinese)Joseph Kuo
 
Cgroup lxc在17173 iaas应用池中应用
Cgroup lxc在17173 iaas应用池中应用Cgroup lxc在17173 iaas应用池中应用
Cgroup lxc在17173 iaas应用池中应用Jinrong Ye
 

What's hot (20)

Mesos intro
Mesos introMesos intro
Mesos intro
 
Hadoop Map Reduce 程式設計
Hadoop Map Reduce 程式設計Hadoop Map Reduce 程式設計
Hadoop Map Reduce 程式設計
 
Something about Kafka - Why Kafka is so fast
Something about Kafka - Why Kafka is so fastSomething about Kafka - Why Kafka is so fast
Something about Kafka - Why Kafka is so fast
 
Docker初识
Docker初识Docker初识
Docker初识
 
Docker進階探討
Docker進階探討Docker進階探討
Docker進階探討
 
QNAP MOPCON 2015 - 輕鬆打造持續整合開發環境,使用 QNAP Docker
QNAP MOPCON 2015 -  輕鬆打造持續整合開發環境,使用 QNAP DockerQNAP MOPCON 2015 -  輕鬆打造持續整合開發環境,使用 QNAP Docker
QNAP MOPCON 2015 - 輕鬆打造持續整合開發環境,使用 QNAP Docker
 
百度系统部分布式系统介绍 马如悦 Sacc2010
百度系统部分布式系统介绍 马如悦 Sacc2010百度系统部分布式系统介绍 马如悦 Sacc2010
百度系统部分布式系统介绍 马如悦 Sacc2010
 
How to plan a hadoop cluster for testing and production environment
How to plan a hadoop cluster for testing and production environmentHow to plan a hadoop cluster for testing and production environment
How to plan a hadoop cluster for testing and production environment
 
Docker基礎
Docker基礎Docker基礎
Docker基礎
 
Design realization and application of RBD NBD - Wang Li
Design realization and application of RBD NBD - Wang LiDesign realization and application of RBD NBD - Wang Li
Design realization and application of RBD NBD - Wang Li
 
Ceph Day Beijing - Leverage Ceph for SDS in China Mobile
Ceph Day Beijing - Leverage Ceph for SDS in China MobileCeph Day Beijing - Leverage Ceph for SDS in China Mobile
Ceph Day Beijing - Leverage Ceph for SDS in China Mobile
 
Ceph monitor-op
Ceph monitor-opCeph monitor-op
Ceph monitor-op
 
Docker實務
Docker實務Docker實務
Docker實務
 
Docker - 30秒生出100台伺服器
Docker - 30秒生出100台伺服器Docker - 30秒生出100台伺服器
Docker - 30秒生出100台伺服器
 
Docker集群管理 工具篇
Docker集群管理 工具篇Docker集群管理 工具篇
Docker集群管理 工具篇
 
Ceph intro
Ceph introCeph intro
Ceph intro
 
Bypat博客出品-服务器运维集群方法总结2
Bypat博客出品-服务器运维集群方法总结2Bypat博客出品-服务器运维集群方法总结2
Bypat博客出品-服务器运维集群方法总结2
 
Bypat博客出品-服务器运维集群方法总结
Bypat博客出品-服务器运维集群方法总结Bypat博客出品-服务器运维集群方法总结
Bypat博客出品-服务器运维集群方法总结
 
Establish The Core of Cloud Computing Application by Using Hazelcast (Chinese)
Establish The Core of  Cloud Computing Application  by Using Hazelcast (Chinese)Establish The Core of  Cloud Computing Application  by Using Hazelcast (Chinese)
Establish The Core of Cloud Computing Application by Using Hazelcast (Chinese)
 
Cgroup lxc在17173 iaas应用池中应用
Cgroup lxc在17173 iaas应用池中应用Cgroup lxc在17173 iaas应用池中应用
Cgroup lxc在17173 iaas应用池中应用
 

Similar to DRBL-live-hadoop at TSLC

Clonezilla tutorial.v7
Clonezilla tutorial.v7Clonezilla tutorial.v7
Clonezilla tutorial.v7hs1250
 
Hadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TWHadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TWJazz Yao-Tsung Wang
 
2011 q2 drbl-clonezilla.advanced_v9
2011 q2 drbl-clonezilla.advanced_v92011 q2 drbl-clonezilla.advanced_v9
2011 q2 drbl-clonezilla.advanced_v9hs1250
 
HDFS與MapReduce架構研討
HDFS與MapReduce架構研討HDFS與MapReduce架構研討
HDFS與MapReduce架構研討Billy Yang
 
讓軟體開發與應用更自由 - 使用 Docker 技術
讓軟體開發與應用更自由 - 使用 Docker 技術讓軟體開發與應用更自由 - 使用 Docker 技術
讓軟體開發與應用更自由 - 使用 Docker 技術Yu Lung Shao
 
Zh tw introduction_to_hadoop and hdfs
Zh tw introduction_to_hadoop and hdfsZh tw introduction_to_hadoop and hdfs
Zh tw introduction_to_hadoop and hdfsTrendProgContest13
 
Build desktop app_by_xulrunner
Build desktop app_by_xulrunnerBuild desktop app_by_xulrunner
Build desktop app_by_xulrunnerRack Lin
 
20030623 linuxbasic and-security
20030623 linuxbasic and-security20030623 linuxbasic and-security
20030623 linuxbasic and-security建融 黃
 
docker intro
docker introdocker intro
docker introkoji lin
 
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Anna Yen
 
HDInsight for Microsoft Users
HDInsight for Microsoft UsersHDInsight for Microsoft Users
HDInsight for Microsoft UsersKuo-Chun Su
 
Continuous Delivery - Opening
Continuous Delivery - OpeningContinuous Delivery - Opening
Continuous Delivery - OpeningRick Hwang
 
使用Ubuntu架設hadoop
使用Ubuntu架設hadoop使用Ubuntu架設hadoop
使用Ubuntu架設hadooptaishanla
 
Heartbeat+my sql+drbd构建高可用mysql方案
Heartbeat+my sql+drbd构建高可用mysql方案Heartbeat+my sql+drbd构建高可用mysql方案
Heartbeat+my sql+drbd构建高可用mysql方案cao jincheng
 
[精彩回顾]Linux新手教程
[精彩回顾]Linux新手教程[精彩回顾]Linux新手教程
[精彩回顾]Linux新手教程NJU OPEN
 
開發環境建置
開發環境建置開發環境建置
開發環境建置Shengyou Fan
 
Docker tutorial
Docker tutorialDocker tutorial
Docker tutorialazole Lai
 

Similar to DRBL-live-hadoop at TSLC (20)

Clonezilla tutorial.v7
Clonezilla tutorial.v7Clonezilla tutorial.v7
Clonezilla tutorial.v7
 
Hadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TWHadoop Deployment Model @ OSDC.TW
Hadoop Deployment Model @ OSDC.TW
 
2011 q2 drbl-clonezilla.advanced_v9
2011 q2 drbl-clonezilla.advanced_v92011 q2 drbl-clonezilla.advanced_v9
2011 q2 drbl-clonezilla.advanced_v9
 
HDFS與MapReduce架構研討
HDFS與MapReduce架構研討HDFS與MapReduce架構研討
HDFS與MapReduce架構研討
 
讓軟體開發與應用更自由 - 使用 Docker 技術
讓軟體開發與應用更自由 - 使用 Docker 技術讓軟體開發與應用更自由 - 使用 Docker 技術
讓軟體開發與應用更自由 - 使用 Docker 技術
 
Zh tw introduction_to_hadoop and hdfs
Zh tw introduction_to_hadoop and hdfsZh tw introduction_to_hadoop and hdfs
Zh tw introduction_to_hadoop and hdfs
 
Build desktop app_by_xulrunner
Build desktop app_by_xulrunnerBuild desktop app_by_xulrunner
Build desktop app_by_xulrunner
 
20030623 linuxbasic and-security
20030623 linuxbasic and-security20030623 linuxbasic and-security
20030623 linuxbasic and-security
 
Why use MySQL
Why use MySQLWhy use MySQL
Why use MySQL
 
docker intro
docker introdocker intro
docker intro
 
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
 
HDInsight for Microsoft Users
HDInsight for Microsoft UsersHDInsight for Microsoft Users
HDInsight for Microsoft Users
 
Continuous Delivery - Opening
Continuous Delivery - OpeningContinuous Delivery - Opening
Continuous Delivery - Opening
 
使用Ubuntu架設hadoop
使用Ubuntu架設hadoop使用Ubuntu架設hadoop
使用Ubuntu架設hadoop
 
Ubuntu
UbuntuUbuntu
Ubuntu
 
Heartbeat+my sql+drbd构建高可用mysql方案
Heartbeat+my sql+drbd构建高可用mysql方案Heartbeat+my sql+drbd构建高可用mysql方案
Heartbeat+my sql+drbd构建高可用mysql方案
 
[精彩回顾]Linux新手教程
[精彩回顾]Linux新手教程[精彩回顾]Linux新手教程
[精彩回顾]Linux新手教程
 
Asm+aix
Asm+aixAsm+aix
Asm+aix
 
開發環境建置
開發環境建置開發環境建置
開發環境建置
 
Docker tutorial
Docker tutorialDocker tutorial
Docker tutorial
 

DRBL-live-hadoop at TSLC

  • 1. 利用 DRBL live 快速佈 署簡易型 Hadoop 叢集 蔡育欽 國家高速網路中心
  • 2. Outline ● DRBL / Clonezilla ● DRBL-live ● Hadoop ● Drbl-live-hadoop ● [Video | Live ] Demo ● Hadoop commands
  • 3. 國網中心自由軟體開發 高速計算技術及經驗發展之核心技術 企鵝龍DRBL 再生龍 Clonezilla 適用完整系統備份、裸機 還原或災難復原 (Diskless Remote Boot in Linux) 無碟環境,適合將整個電 腦教室轉換成純自由軟體 環境 是自由!不僅是免費… 使用、複製、修改與再散播軟體的自由。免費是附加價值。人人皆可自由享用。
  • 5. Clonezilla ● Clonezilla [OCS (Opensource Clone System)] ● Clonezilla 是一完整的硬碟資料複製的工具,類似 Ghost®(Symantec) 或 是Rembo(Acquired by IBM Tivoli® software)/ Acronis®(True Image) ● 處理元件包含: – 實體資料 : 分割區資料、 LVM2 – 隱藏磁區 ● Block base 備份方式 – 只備份有使用之區塊,提高備份還原效能 – Smart copying – 支援 Grub 1/2 ( 恢復、重建 ) – 檔案式架構之印象檔:格式通透、公開、標準格式;易於彈性調整
  • 6. = + + Server DRBL Diskfull PC Diskless PC image source: www.mren.com.tw
  • 7. DRBL - Diskless Remote Boot in Linux ● pxe/etherboot + nfs + nis – 站在巨人的肩膀上 ● 支援多元化的電腦教學- Linux 與微軟 Windows可同時並存 ● DRBL環境下,OS存在server端,client端的作業系統可保留 ● 簡化管理工作 ● 所有的服務集中在server管理,減少檢視每台client軟體的困擾 ● 作業系統與軟體只需要在server上安裝一遍即可 ● 硬體與安裝雖簡化,軟體卻完整 ● 軟體和逐一安裝的機器一樣,沒有任何偷工減料
  • 8. DRBL Environment DRBL erver NIC 2 NIC 3 NIC 4 private IP private IP private IP switch 1 switch 2 switch 3 node001 node013 node027 node040 node014 ~ node028 ~ ~
  • 9. DRBL的建議規格 以下所列的規格僅供參考,採購時可依據經費與當時最佳的設備來採購,中 央政府各機關、學校委託的中央信託局集中採購案中有符合使用的設備 高效能計算(HPC)的需求是永無止境的 伺服器 最低規格:CPU 450 MHz,記憶體256 MB,fast ethernet(100Mbps)網路卡多張。 建議規格:CPU 2.6 GHz,記憶體1 GB,Gigabits網路卡4張。 客戶端 最低規格:CPU 300 MHz,記憶體128 MB,100Mbps網路卡,若是新購電腦的話建議直接買有支援網 路開機(PXE)的網卡或是內建PXE功能網卡的主機板。 網路連接設備 最低需求:100Mbps的交換器。 建議規格:以40人的電腦教室為例,兩台24埠100Mbps的交換器,每台上面另外個別有2個Gigabits ports。
  • 10. Modes of DRBL/Clonezilla Full DRBL Full Clonezilla DRBL SSI Clonezilla Box /etc, /var of client NFS­based NFS­based Tmpfs­based Tmpfs­based Kept Kept Gone Gone ~ 50 ­100 MB* ~ 50­100MB* 0 0 253 253 253 253 Files in /etc and /var of client after reboot Extra space in server/client Max client #/eth­ernet card in server * depends on the packages installed in the server
  • 11. DRBL-live ● DRBL live – 透過光碟或者隨身碟直接開機 – 當一台DRBL伺服器 – 所有的程式不需要裝在那台電腦的硬碟中。 ● 圖形介面XFCE ● 不需要安裝 直接操作 所有DRBL 功能
  • 13. Hadoop ● 以Google App Engine平台為仿效對象 ● 創始者 Doug Cutting – Apache Lucene文字搜尋引擎,Java設計的高效能文件索引引擎API – 進而開發了Apache Nutch ● 以Java開發 ● 自由軟體 ● 上千個節點與Petabyte等級的資料量 ● 為Apache 軟體基金會的 top level project
  • 14. 起源:2002-2004 ● Lucene – 用Java設計的高效能文件索引引擎API – 索引文件中的每一字,讓搜尋的效率比傳統 – 逐字比較還要高的多 ● Nutch – nutch是基於開放原始碼所開發的web search – 利用Lucene函式庫開發 – 在Nutch 0.8版之後,Hadoop為獨立項目演變為獨立的Hadoop 開發套件
  • 15. 起源:Google論文 ● Google File System – 可擴充的分散式檔案系統 – 設計目的在於可以給大量的用戶提供總體性 – 能較高的服務 – 適用於分散式、對大量資訊進行存取的應用 – 可運作在一般的普通主機上,且提供錯誤容忍的能力 ● “The Google File System“ 發表於SOSP' 03 October,並將設計的概念公開 ● Dong Cutting 開始參考論文來實做
  • 16. 起源:2004~ ● Dong Cutting 開始參考論文來實做 ● Added DFS & MapReduce implement to Nutch ● Nutch 0.8版之後,Hadoop為獨立項目 ● Yahoo 於2006年僱用Dong Cutting 組隊專職開發 – Team member = 14 (engineers, clusters, users, etc. ) ● Hadoop命名的概念也非常類似當年Google命名的由 來,Google是英文單詞「Googol」按照通常的英語 拼法改寫而來的。Googol是一個大數的名稱,也就是 10的100次方,表示1後面加上100個零。
  • 17. 系統特色 ● 巨量 - 擁有儲存與處理大量資料的能力 ● 經濟 - 可以用在由一般PC所架設的叢集環境內 ● 效率 - 籍由平行分散檔案的處理以致得到快速的回應 ● 可靠 - 當某節點發生錯誤,系統能即時自動的取得備份資料以 及佈署運算資源 ● 定位 - 是用來處理與保存大量資料的雲端運算平台 ● Hadoop主要核心完全使用Java開發,而使用者端則提供C+ +/Java/Shell/Command等程式開發介面,目前可執行於 Linux、Mac OS/X、Windows和Solaris作業系統,以及一 般商用等級的伺服器
  • 18. Hadoop 元件 ● Hadoop中包含了最著名的分散式檔案系統 (HDFS)、MapReduce框架、儲存系統(HBase)等元件,以及根 據Hadoop延伸發展的其他子專案: – Core:一組用於分散式檔案系統和一般性I/O之用的元件和介面。 – ZooKeeper:分散式且高可用性的協調服務,可為建置分散式系統提供分散式鎖 定等原始鎖定功能。 – Hive:分散式資料倉儲,透過Hiave可管理存放於HDFS的資料,並提供根據 SQL發展的查詢語言來查詢資料。 – Pig:超大資料集的資料流語言以及執行環境,可在HDFS和MapReduce叢集環 境中執行。 – Avro:提供高效能、跨語言以及可保存資料的RPC資料序列化系統。 – Chukwa:分散式資料收集和分析系統,其會執行收集器以便在HDFS中儲存資 料,且會使用MapReduce來產生報表
  • 19. Hadoop 架構 雲端應用程式 Hbase 儲存系統Map Reduse 框架 分散式檔案系統 HDFS 叢集伺服器
  • 20. MapReduce (MRv2/YARN) ● 新的 Hadoop MapReduce 框架命名為 MapReduceV2 或者叫 Yarn ● MRv2最基本的設計思想是將 JobTracker的兩個主要功能,即資源管 理和作業調度/監控分成兩個獨立程 序。包含幾個部分: – ResourceManager(RM) ● 調度器(Scheduler) ● 應用管理器 (ApplicationsManager,ASM) – ApplicationMaster(AM) ● 一個具體的框架庫,它的任務是與 RM協商獲取應用所需資源和與 NM (NodeManager) 合作,以完 成執行和監控task的任務
  • 21. 背景與動機 ● 電腦教室一般使用率不到30% ● 個人電腦叢集一般使用量都非常高 ● 應該妥善利用電腦教室閒暇時間 ● 完善的電腦教室管理與使用機制是需要的 -> DRBL
  • 22. drbl-live-hadoop ● 整合DRBL 與 Hadoop 環境 ● 自動化佈署Hadoop ● 彈性擴充節點 ● 有效運用計算資源
  • 23. DIY ● Tuxboot ● Drbl-live ● CD-Rom or Usb boot ● Drbl-live-hadoop ● Boot clients (datanode) ● http://127.0.0.1:50070 ● http://127.0.0.1:8088
  • 41. JPS
  • 44. todo ● Storm ● HBase ● Zookeeper ● Clonezilla-hadoop ● DRBL-hadoop
  • 45. Related Projects and Developers ● DRBL ● Clonezilla ● Partclone ● Tuxboot ● Tux2Live ● Cloudboot ● Steven Shiau ● Ceasar Sun ● Thomas Tsai ● Jimmy Chuang
  • 46. DEMO