Hadoop 介紹 20141024

Big Data : Hadoop
Jay Chu
ccrchu@gmail.com
1

The Gartner - Top 10 Technology Trends
for the Energy and Utilities Sector in
2013
 Social Media and Web 2.0
 Big Data
 Mobile and Location-Aware Technology
 Cloud Computing and SaaS
 Sensor Technology
 In-Memory Computing
 IT and OT Convergence
 Advanced Metering Infrastructure
 Communication Technology
 Predictive Analytics
2 http://www.gartner.com/newsroom/id/2426515

The Gartner
 By 2017, the CMO will spend more on IT than
the CIO." (Gartner)
 根據Gartner 對全球CIO 調查顯示，BYOD(員工
自攜設備)普及率將在2017年突破五成，最終將達
到85%
3
http://my.gartner.com/portal/server.pt?open=512&objID=202&mode=2&PageID=5553&resId=1871515
http://blog.cloudsherpas.com/cloud-strategy-2/how-to-use-itsm-to-manage-your-byod-strategy/

The Matrix: everything is data
4

Big Data 該何去何從
「能不能請你好心的告訴我，我應該往那個方向去呢？」愛麗絲問。
「這完全要看你想去哪裡了？」貓這麼回答著。
「我不是很在意要去哪兒...」愛麗絲說。
「既然這樣，你往哪個方向走就沒那麼重要。」貓說。
「.....只要我真能到某個地方」愛麗絲補充道。
「喔，妳一定能到某個地方的，」貓說：「只要你走得夠久」
5

Data Science 資料科學
6 http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram

Data Science? Big Data? 都不熟怎麼辦?
如何取得資料? 爬文/ 爬網頁/ social media/
7
如何取得open data? 資料的正確性與即時性?
如何從網路上探訪資料的關聯性? 我要去哪裡找到這樣的
數學家與統計專家與領域專家? BTW, 數學家不
熟Programming !!!
如何從Machine Learning開始入門? 顧客的分
群與喜好、潛在客戶會是那些人?
如何發展感測器sensor? 物聯網, 手機ARM CPU
內建省電的藍芽4.0模組

Father of Hadoop
 Google 的啟發
GFS, Map-Reduce, Bigtable
 Doug Cutting - Hadoop 之父
從Lucene, Nutch到Hadoop
8

Hadoop
 巨量資料分析
 擅長離線資料分析
 分散式文件系統+計算框架
 Hadoop不是資料庫, HBase才是
 發展快速的eco-system
 Hadoop 會適用在那些行業?
9

Hadoop 的應用價值
 Mediam Latency, batch jobs
 For lower latency:
In-Memory Computing/
Streaming Computing (CEP)
10

Open Source Big data project
Solution Developer Type Description
Storm Twitter Streaming Twitter's new streaming
big-data analytics
solution
S4 Yahoo! Streaming Distributed stream
computing platform
from Yahoo!
Hadoop Apache Batch First open source
implementation of the
MapReduce paradigm
Spark UC Berkeley
AMPLab
Batch Recent analytics
platform that supports
in-memory data sets
and resiliency
Disco Nokia Batch Nokia's distributed
MapReduce framework
HPCC LexisNexis Batch HPC cluster for big
data
http://www.ibm.com/developerworks/library/os-twitterstorm/

Big Data : 4V
12 Ref: http://contest.trendmicro.com/2013/tw/train.htm

MR in Brief
 可以把MR的過程想像成一家醬料工廠
原物料有: 番茄、辣椒、洋蔥、蒜頭、紅椒、
起司、香料
 將原料切細的過程, 稱為Map
 將細末轉化成不同的醬料, 稱為Reduce
13

Splitting Tasks to Sub-tasks
14

HDFS Read
15
Name Node
Data Node Data Node Data Node Data Node
Local disk
name,replica,block_id,,
/home/data/test, 3 …etc
Local disk Local disk Local disk
1
2
3
name
block_id, loc
Transfer data
block_operation(heartbeat, replication, re-balancing

HDFS Write
16
Name Node
1
2
create
Write data
doing replica
(data replication)
3
Data Node Data Node Data Node Data Node
Local disk Local disk Local disk Local disk
4
Ack packet
5 Finish

Secondary
NameNode
HDFS Fault Tolerance
17
Name Node
Data Node Data Node Data Node
Local disk Local disk Local disk
Data Node
Local disk

NameNode HA?
 Cloudera
NAS
 Hortonworks
Linux Cluster HA or vSphere vMotion
 Apache Hadoop
QJM, BackupNode
 Other Industry Solution
Veritas VCS/VVR, Linux DRBD
18

Hadoop – Big Database?
 空間占用為TB ~ PB 以上
 儲存非結構化與結構化資料
 半結構化資料可以為AP logs, GPS data ,
machine/sensor data
 非結構化圖像, 錄影, 錄音檔或任何檔案
19

Mapreduce - Dataflow
20
Split 0
Split 1
Split 2
Map 0
Map 1
Map 2
Key a
Key b
Key a
Key b
Key a
Key a
Key b
Reduce 0 Split 0
Reduce 1 Split 1
Input HDFS
Merge Output HDFS
Key b

MR- Word Count
21
< Hello, 1>
< World, 1>
< Bye, 1>
< World, 1>
< Hello, 1>
< Hadoop, 1>
< Goodbye, 1>
< Hadoop, 1>
Bye 1
Goodbye 1
Hadoop 1
Hello 2
World 2
hadoop 1
goodbye 1
hadoop 2
hello 2
world 2
Hello World Bye World
Hello Hadoop Goodbye Hadoop

MR- Via shell script
23
使用shell script 進行workcount, 可將HDFS檔案
透過streaming的方式處理
$
hadoop jar hadoop-*-streaming.jar -input input -
output output -mapper /bin/cat -reducer
/usr/bin/wc

Data Service Framework
24
Sqoop
HBase
豬
HCatalog
顧象人
蜂窩
Zoo Keeper
水槽

Highlighting Component in Hadoop
25
Component Description
Mahout Scalable machine learning algorithms
YARN NextGen MapReduce - Resource management and
job scheduling
Shark 100X faster than Hive for SQL
Spark Spark can run up to 100x faster
than Hadoop MapReduce
Rhipe R language faster than Java MR
Solr A NoSQL Search Server and Big Data Analytics tool
Storm The Hadoop of Realtime Stream Processing

HDFS
 Hadoop Distributed File System
 Designed Base on Google Filesystem
 Provides high-throughput access
 Ideal for big table access
 Fault tolerence
26

HBase
 Hadoop-based project
 NoSQL/Key-Value Database
 分散式即時資料庫
 Store structured data storage for large tables
 開發者存取資料需透過JAVA 實作出SQL Function/ Join
的效果來
27

Pig
 Pig Latin 資料流語言
 Don’t need to know Java ,實作並簡化了Java Map
reduce
 User-defined Functions(UDF)
 Parse and manipulate HDFS data
(GROUP、SORT、FILTER、JOIN)
28

Mahout Framework
 基於Hadoop的data analytic/ data mining的推
薦引擎
 Mahout演算法, 運用Linear Algebra, 將計算後的
結果存放在HBase
 近似Near-Rear-Time結果可透過Web UI呈現
 由於資料存放在HBase, 查詢時間為固定可預測
的(predictable)
 使用以下Machine Language(ML)技術:
• 叢集（Clustering）
• 分類(Categorization)
• 協同過濾（Collaborative filtering）
30

Mahout Framework
 協同過濾（Collaborative filtering)
31

Hadoop 各版本分支
 Apache open-source 版本
 Hortonworks
 Cloudera CDH
 MapR (distribute namenode 核心)
 EMC Greenplum
 趨勢(internal use)/ 百度
32

Hadoop 特點
 Share-nothing架構
 支援MPP高效大量平行處理能力
 可橫向擴充(scale-out)
 HDFS預設自動將資料做複寫三份
 使用PC等級硬體即可運作
 使用Java language編寫、或結合php, python使用串
流方式處理資料
 節點數量越多效能越好
 資料離線分析
33

Hadoop 缺點
 如果多個使用者, 須自行開發程式或透過LDAP來
隔開用戶。
 除了Java MapReduce架構外, 須研究ML
 資料管理機制大多為指令介面
 只有兩個Name node存放檔案meta-data
 與RDBMS之間搬移資料須熟悉Sqoop或其他ETL
工具
 並無提供DR機制, 需使用DisCp指令備份資料至異
地之Haoop Cluster
34

Hadoop資料安全
• 資料安全性的迷思
資料安全如同Linux like系統, 可運用Kerberos/ nis
server的認證機制
• 建議設計
Hadoop上不應該放機密資料, 僅需要放id 或key等
等的資訊, 重要機密資訊例如:
客戶個人資料, 帳目資料, 敏感資料, 應放在RDBMS
上面,
當需要時, 才從RDB與Hadoop查詢、correlate出
關聯資料。
35

Benchmark Measurements
 DFSIO- MapReduce Benchmark
 YCSB- Yahoo! Cloud Serving Benchmark
 Terasort
 Teragen
36

各大廠所推出的Hadoop appliance
 HP AppSystem for Apache Hadoop
 HP HAVEn
 Oracle's Big Data Appliance
 IBM PureData
 EMC Greenplum DCA
(Data Computing Appliance)
 NetApp Open Solution for Hadoop
37

Q&A
 Big data 是否就是雲端?
Big data與雲端為兩種不同的概念, 可以把Big Data
想像成, 我的dropbox資料, 不管它存放在哪裡, 都會
有資料備援.
雲端不需要把她想得太神妙~ 台灣廠商與SI喜歡把硬
體跟雲端綁在一起, 軟體的供裝與測試開發加速, 才
會是雲端所能提供的優勢。
39

Big Data SQL Query Engine
 Cloudera Impala:
SQL-92
 EMC Greenplum :
SQL-92, SQL-99, SQL 2003 OLAP
 HP Vertica :
A sub-Set of SQL-99
 IBM Biginsight :
SQL-92, SQL-99,
SQL-99 OLAP aggregation functions ,
SQL 2003 windowed aggregate
 Apache/MapR Drill
SQL 2003
40

Big Data SQL Query Engine(Con’d)
 Trafodion(HP, ANSI SQL support, ACID)
 Apache Hive
 Presto(Facebook)
 Shark
 Apache Pheonix(for Hbase)
41

Big Data SQL Query Engine(Con’d)
 HBase Query : HareDB (台灣亦思科技研發)
 Hortonworks : Stinger with Hive, Phoenix with HBase
 Pivotal HD Enterprise : ANSI-92 SQL
42

Data Mining 的商業價值
 大賣場:
星期五晚上，買啤酒的人大多也會買尿布。
 信用卡公司:
快速發現可疑盜刷事件。
 行動通訊企業:
使用探勘技術建立顧客流失預測模型。
異常大量一對多電話，透過軌跡判斷可能為廣告或
詐騙。
 金融業:
應用金融商品價格趨勢變化預測。
43

Why Hadoop and RDBMS co-exists ?
 Do SQL/OLAP analytics in DBMS is easier?
 Do Hive/MR analytics in Hadoop is faster?
46

Q&A
 關於sizing 部分, 應如何細部規劃？
 我們知道的部份是Hadoop 預設抄寫三份資料，如此的話應
會有2/3 空間的預留HDFS data block backup，例如使用
Hortonworks framework，50TB 與1PB 容量, 對於Name
Node， Data Node 的建議數量，以及空間建議。
Ans:
如果資料需要50TB, 則Data Node的總可用大小就必須為
50TB x 3 = 150TB。
Name Node通常使用記憶體來處理HDFS io request, 如果使用
較大的block size(ex: 128MB, 則對name node的壓力會較小),
建議對Name node分配較大的記憶體, 例如128GB RAM
47

Q&A
 Hortonworks 建議Name Node 使用RAID 做資料保護，
Data Node不須使用RAID 做資料保護…但實際商用情形是
如何?
Ans:
可根據實際情形做調整, 像是Hortonworks的name node並無
HA功能, 所以建議用raid 作保護, 而現存設備通常交給硬體
raid(不管是name node, data node均如此) 。
如節點數較少,小於十個, 建議都使用raid disk保護。
48

Q&A
 關於Hadoop Hortonworks DR 機制的實際案例或建議？
Ans:
Hadoop的精神裡面已經沒有DR了~通常會在同一個site, 如做
DR機制可針對HBASE定期做資料的提取搬移到異地, 或使用
rsync copy HDFS上面的重要檔案至異地端。
49

Q&A
 Hadoop Hive/Hbase 與RDBMS 同時存在的必要性？
 如透過Hive能呈現出的歷史資料(e.g. historical data &
report 能呈現出十分鐘以前的Map-Reduce 產出資料)，是
否就不需要RDBMS?
Ans:
針對客戶已經有DB的部分, Hadoop 會有加分作用, 像是針對某
電信單位的Teradata, 有一半Job都在處理data cleansing的動
作, 像是這樣可以分散DB server的loading, 與DB使用空間, 讓
DB專心做BI/EDW。
若針對新環境建議, 則是以使用需求為主, 同時存在則可以彈性
對Hadoop 做簡單的商業行為分析, 與對Hbase做多緯度的
OLAP分析行為(需要Java Coding)。
50

Q&A
 Hadoop存放的block size為何建議不能太小, 至
少64MB或128MB?
Ans:Block size如果太小, 容易有一個問題, 當data
node重開機或毀損時, 太多細小檔案, 會增加copy
replica的時間, 就好比在linux裡面copy大量小檔案
時, 速度快不起來, 是一樣的道理。
51

Q&A
 Hadoop存放的各個物件檔案, 不建議太小?
Ans:因為namenode在記憶體中存儲hdfs中的檔資訊。每個檔案、目錄
或區塊（block）需要大約150Byte
如果HDFS 有一百萬個檔案或資料夾, 則共需要150 Byte * 1000000
/1024/1024 = 143MB的記憶體空間, 建議粗估300MB(Name node :
heap size)
而真正的速度影響是, 在執行map-reduce工作時, 需要不斷的去
reference參照各個檔案, 造成Java MR process的時候, Name node與
data node交換的檔案資訊變多, 大大的拖慢了parsing的速度。
另外一個考量,
存放一百萬個檔案，每個都是64 MB，那空間總共為64 TB。如果平均
每個是64 KB，那只能儲存64 GB。
52

Q&A
 Hadoop平台上如何提升安全性?
Ans:
就如同Linux上面的安全性, 建議使用kerberos認證機制, 以Apache
hadoop 為例,
eclipse client僅需要知道Hadoop user account就可以冒名登入並存
取Apache hadoop HDFS上面的檔案,各廠如Cloudera 也慢慢注意到代
碼上面有漏洞而修正此問題.
P.S.關於機密資料, 應存放在傳統資料庫上, 等到需與Hadoop關聯時, 再
進行資料關聯.
53

Competitors for Real Time Analysis
(In-Memory Computing)
1. IBM InfoSphere Streams
2.IBM Websphere Business Events
3. Informatica Complex Event Processing
4.Oracle Complex Event Processing
5.SAP Sybase Event Stream Processor.
6. Microsoft StreamInsight
7.HP Tandem
8.EMC GemFire Real-Time Events

EDW appliance
 Oracle Exadata
 HP PDW for MSSQL 2012
 IBM Netezza Data Warehouse Appliance
 EMC Greenplum Appliance
 Teradata Appliance
56

Hadoop 介紹 20141024

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (19)

Similar to Hadoop 介紹 20141024

Similar to Hadoop 介紹 20141024 (20)

Hadoop 介紹 20141024

Editor's Notes