SlideShare a Scribd company logo
1 of 57
Big Data : Hadoop 
Jay Chu 
ccrchu@gmail.com 
1
The Gartner - Top 10 Technology Trends 
for the Energy and Utilities Sector in 
2013 
 Social Media and Web 2.0 
 Big Data 
 Mobile and Location-Aware Technology 
 Cloud Computing and SaaS 
 Sensor Technology 
 In-Memory Computing 
 IT and OT Convergence 
 Advanced Metering Infrastructure 
 Communication Technology 
 Predictive Analytics 
2 http://www.gartner.com/newsroom/id/2426515
The Gartner 
 By 2017, the CMO will spend more on IT than 
the CIO." (Gartner) 
 根據Gartner 對全球CIO 調查顯示,BYOD(員工 
自攜設備)普及率將在2017年突破五成,最終將達 
到85% 
3 
http://my.gartner.com/portal/server.pt?open=512&objID=202&mode=2&PageID=5553&resId=1871515 
http://blog.cloudsherpas.com/cloud-strategy-2/how-to-use-itsm-to-manage-your-byod-strategy/
The Matrix: everything is data 
4
Big Data 該何去何從 
「能不能請你好心的告訴我,我應該往那個方向去呢?」愛麗絲問。 
「這完全要看你想去哪裡了?」貓這麼回答著。 
「我不是很在意要去哪兒...」愛麗絲說。 
「既然這樣,你往哪個方向走就沒那麼重要。」貓說。 
「.....只要我真能到某個地方」愛麗絲補充道。 
「喔,妳一定能到某個地方的,」貓說:「只要你走得夠久」 
5
Data Science 資料科學 
6 http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
Data Science? Big Data? 都不熟怎麼辦? 
如何取得資料? 爬文/ 爬網頁/ social media/ 
7 
如何取得open data? 資料的正確性與即時性? 
如何從網路上探訪資料的關聯性? 我要去哪裡找到這樣的 
數學家與統計專家與領域專家? BTW, 數學家不 
熟Programming !!! 
如何從Machine Learning開始入門? 顧客的分 
群與喜好、潛在客戶會是那些人? 
如何發展感測器sensor? 物聯網, 手機ARM CPU 
內建省電的藍芽4.0模組
Father of Hadoop 
 Google 的啟發 
GFS, Map-Reduce, Bigtable 
 Doug Cutting - Hadoop 之父 
從Lucene, Nutch到Hadoop 
8
Hadoop 
 巨量資料分析 
 擅長離線資料分析 
 分散式文件系統+計算框架 
 Hadoop不是資料庫, HBase才是 
 發展快速的eco-system 
 Hadoop 會適用在那些行業? 
9
Hadoop 的應用價值 
 Mediam Latency, batch jobs 
 For lower latency: 
In-Memory Computing/ 
Streaming Computing (CEP) 
10
Open Source Big data project 
Solution Developer Type Description 
Storm Twitter Streaming Twitter's new streaming 
big-data analytics 
solution 
S4 Yahoo! Streaming Distributed stream 
computing platform 
from Yahoo! 
Hadoop Apache Batch First open source 
implementation of the 
MapReduce paradigm 
Spark UC Berkeley 
AMPLab 
Batch Recent analytics 
platform that supports 
in-memory data sets 
and resiliency 
Disco Nokia Batch Nokia's distributed 
MapReduce framework 
HPCC LexisNexis Batch HPC cluster for big 
data 
http://www.ibm.com/developerworks/library/os-twitterstorm/
Big Data : 4V 
12 Ref: http://contest.trendmicro.com/2013/tw/train.htm
MR in Brief 
 可以把MR的過程想像成一家醬料工廠 
原物料有: 番茄、辣椒、洋蔥、蒜頭、紅椒、 
起司、香料 
 將原料切細的過程, 稱為Map 
 將細末轉化成不同的醬料, 稱為Reduce 
13
Splitting Tasks to Sub-tasks 
14
HDFS Read 
15 
Name Node 
Data Node Data Node Data Node Data Node 
Local disk 
name,replica,block_id,, 
/home/data/test, 3 …etc 
Local disk Local disk Local disk 
1 
2 
3 
name 
block_id, loc 
Transfer data 
block_operation(heartbeat, replication, re-balancing
HDFS Write 
16 
Name Node 
1 
2 
create 
Write data 
doing replica 
(data replication) 
3 
Data Node Data Node Data Node Data Node 
Local disk Local disk Local disk Local disk 
4 
Ack packet 
5 Finish
Secondary 
NameNode 
HDFS Fault Tolerance 
17 
Name Node 
Data Node Data Node Data Node 
Local disk Local disk Local disk 
Data Node 
Local disk
NameNode HA? 
 Cloudera 
NAS 
 Hortonworks 
Linux Cluster HA or vSphere vMotion 
 Apache Hadoop 
QJM, BackupNode 
 Other Industry Solution 
Veritas VCS/VVR, Linux DRBD 
18
Hadoop – Big Database? 
 空間占用為TB ~ PB 以上 
 儲存非結構化與結構化資料 
 半結構化資料可以為AP logs, GPS data , 
machine/sensor data 
 非結構化圖像, 錄影, 錄音檔或任何檔案 
19
Mapreduce - Dataflow 
20 
Split 0 
Split 1 
Split 2 
Map 0 
Map 1 
Map 2 
Key a 
Key b 
Key a 
Key b 
Key a 
Key a 
Key b 
Reduce 0 Split 0 
Reduce 1 Split 1 
Input HDFS 
Merge Output HDFS 
Key b
MR- Word Count 
21 
< Hello, 1> 
< World, 1> 
< Bye, 1> 
< World, 1> 
< Hello, 1> 
< Hadoop, 1> 
< Goodbye, 1> 
< Hadoop, 1> 
Bye 1 
Goodbye 1 
Hadoop 1 
Hello 2 
World 2 
hadoop 1 
goodbye 1 
hadoop 2 
hello 2 
world 2 
Hello World Bye World 
Hello Hadoop Goodbye Hadoop
MR- Word Count 標籤雲 
22
MR- Via shell script 
23 
使用shell script 進行workcount, 可將HDFS檔案 
透過streaming的方式處理 
$ 
hadoop jar hadoop-*-streaming.jar -input input - 
output output -mapper /bin/cat -reducer 
/usr/bin/wc
Data Service Framework 
24 
Sqoop 
HBase 
豬 
HCatalog 
顧象人 
蜂窩 
Zoo Keeper 
水槽
Highlighting Component in Hadoop 
25 
Component Description 
Mahout Scalable machine learning algorithms 
YARN NextGen MapReduce - Resource management and 
job scheduling 
Shark 100X faster than Hive for SQL 
Spark Spark can run up to 100x faster 
than Hadoop MapReduce 
Rhipe R language faster than Java MR 
Solr A NoSQL Search Server and Big Data Analytics tool 
Storm The Hadoop of Realtime Stream Processing
HDFS 
 Hadoop Distributed File System 
 Designed Base on Google Filesystem 
 Provides high-throughput access 
 Ideal for big table access 
 Fault tolerence 
26
HBase 
 Hadoop-based project 
 NoSQL/Key-Value Database 
 分散式即時資料庫 
 Store structured data storage for large tables 
 開發者存取資料需透過JAVA 實作出SQL Function/ Join 
的效果來 
27
Pig 
 Pig Latin 資料流語言 
 Don’t need to know Java ,實作並簡化了Java Map 
reduce 
 User-defined Functions(UDF) 
 Parse and manipulate HDFS data 
(GROUP、SORT、FILTER、JOIN) 
28
Pig example : HCatalog 
29
Mahout Framework 
 基於Hadoop的data analytic/ data mining的推 
薦引擎 
 Mahout演算法, 運用Linear Algebra, 將計算後的 
結果存放在HBase 
 近似Near-Rear-Time結果可透過Web UI呈現 
 由於資料存放在HBase, 查詢時間為固定可預測 
的(predictable) 
 使用以下Machine Language(ML)技術: 
• 叢集(Clustering) 
• 分類(Categorization) 
• 協同過濾(Collaborative filtering) 
30
Mahout Framework 
 協同過濾(Collaborative filtering) 
31
Hadoop 各版本分支 
 Apache open-source 版本 
 Hortonworks 
 Cloudera CDH 
 MapR (distribute namenode 核心) 
 EMC Greenplum 
 趨勢(internal use)/ 百度 
32
Hadoop 特點 
 Share-nothing架構 
 支援MPP高效大量平行處理能力 
 可橫向擴充(scale-out) 
 HDFS預設自動將資料做複寫三份 
 使用PC等級硬體即可運作 
 使用Java language編寫、或結合php, python使用串 
流方式處理資料 
 節點數量越多效能越好 
 資料離線分析 
33
Hadoop 缺點 
 如果多個使用者, 須自行開發程式或透過LDAP來 
隔開用戶。 
 除了Java MapReduce架構外, 須研究ML 
 資料管理機制大多為指令介面 
 只有兩個Name node存放檔案meta-data 
 與RDBMS之間搬移資料須熟悉Sqoop或其他ETL 
工具 
 並無提供DR機制, 需使用DisCp指令備份資料至異 
地之Haoop Cluster 
34
Hadoop資料安全 
• 資料安全性的迷思 
資料安全如同Linux like系統, 可運用Kerberos/ nis 
server的認證機制 
• 建議設計 
Hadoop上不應該放機密資料, 僅需要放id 或key等 
等的資訊, 重要機密資訊例如: 
客戶個人資料, 帳目資料, 敏感資料, 應放在RDBMS 
上面, 
當需要時, 才從RDB與Hadoop查詢、correlate出 
關聯資料。 
35
Benchmark Measurements 
 DFSIO- MapReduce Benchmark 
 YCSB- Yahoo! Cloud Serving Benchmark 
 Terasort 
 Teragen 
36
各大廠所推出的Hadoop appliance 
 HP AppSystem for Apache Hadoop 
 HP HAVEn 
 Oracle's Big Data Appliance 
 IBM PureData 
 EMC Greenplum DCA 
(Data Computing Appliance) 
 NetApp Open Solution for Hadoop 
37
LET’S TAKE A BREAK 
38
Q&A 
 Big data 是否就是雲端? 
Big data與雲端為兩種不同的概念, 可以把Big Data 
想像成, 我的dropbox資料, 不管它存放在哪裡, 都會 
有資料備援. 
雲端不需要把她想得太神妙~ 台灣廠商與SI喜歡把硬 
體跟雲端綁在一起, 軟體的供裝與測試開發加速, 才 
會是雲端所能提供的優勢。 
39
Big Data SQL Query Engine 
 Cloudera Impala: 
SQL-92 
 EMC Greenplum : 
SQL-92, SQL-99, SQL 2003 OLAP 
 HP Vertica : 
A sub-Set of SQL-99 
 IBM Biginsight : 
SQL-92, SQL-99, 
SQL-99 OLAP aggregation functions , 
SQL 2003 windowed aggregate 
 Apache/MapR Drill 
SQL 2003 
40
Big Data SQL Query Engine(Con’d) 
 Trafodion(HP, ANSI SQL support, ACID) 
 Apache Hive 
 Presto(Facebook) 
 Shark 
 Apache Pheonix(for Hbase) 
41
Big Data SQL Query Engine(Con’d) 
 HBase Query : HareDB (台灣亦思科技研發) 
 Hortonworks : Stinger with Hive, Phoenix with HBase 
 Pivotal HD Enterprise : ANSI-92 SQL 
42
Data Mining 的商業價值 
 大賣場: 
星期五晚上,買啤酒的人大多也會買尿布。 
 信用卡公司: 
快速發現可疑盜刷事件。 
 行動通訊企業: 
使用探勘技術建立顧客流失預測模型。 
異常大量一對多電話,透過軌跡判斷可能為廣告或 
詐騙。 
 金融業: 
應用金融商品價格趨勢變化預測。 
43
When to use Hadoop/EDW? 
44
45
Why Hadoop and RDBMS co-exists ? 
 Do SQL/OLAP analytics in DBMS is easier? 
 Do Hive/MR analytics in Hadoop is faster? 
46
Q&A 
 關於sizing 部分, 應如何細部規劃? 
 我們知道的部份是Hadoop 預設抄寫三份資料,如此的話應 
會有2/3 空間的預留HDFS data block backup,例如使用 
Hortonworks framework,50TB 與1PB 容量, 對於Name 
Node, Data Node 的建議數量,以及空間建議。 
Ans: 
如果資料需要50TB, 則Data Node的總可用大小就必須為 
50TB x 3 = 150TB。 
Name Node通常使用記憶體來處理HDFS io request, 如果使用 
較大的block size(ex: 128MB, 則對name node的壓力會較小), 
建議對Name node分配較大的記憶體, 例如128GB RAM 
47
Q&A 
 Hortonworks 建議Name Node 使用RAID 做資料保護, 
Data Node不須使用RAID 做資料保護…但實際商用情形是 
如何? 
Ans: 
可根據實際情形做調整, 像是Hortonworks的name node並無 
HA功能, 所以建議用raid 作保護, 而現存設備通常交給硬體 
raid(不管是name node, data node均如此) 。 
如節點數較少,小於十個, 建議都使用raid disk保護。 
48
Q&A 
 關於Hadoop Hortonworks DR 機制的實際案例或建議? 
Ans: 
Hadoop的精神裡面已經沒有DR了~通常會在同一個site, 如做 
DR機制可針對HBASE定期做資料的提取搬移到異地, 或使用 
rsync copy HDFS上面的重要檔案至異地端。 
49
Q&A 
 Hadoop Hive/Hbase 與RDBMS 同時存在的必要性? 
 如透過Hive能呈現出的歷史資料(e.g. historical data & 
report 能呈現出十分鐘以前的Map-Reduce 產出資料),是 
否就不需要RDBMS? 
Ans: 
針對客戶已經有DB的部分, Hadoop 會有加分作用, 像是針對某 
電信單位的Teradata, 有一半Job都在處理data cleansing的動 
作, 像是這樣可以分散DB server的loading, 與DB使用空間, 讓 
DB專心做BI/EDW。 
若針對新環境建議, 則是以使用需求為主, 同時存在則可以彈性 
對Hadoop 做簡單的商業行為分析, 與對Hbase做多緯度的 
OLAP分析行為(需要Java Coding)。 
50
Q&A 
 Hadoop存放的block size為何建議不能太小, 至 
少64MB或128MB? 
Ans:Block size如果太小, 容易有一個問題, 當data 
node重開機或毀損時, 太多細小檔案, 會增加copy 
replica的時間, 就好比在linux裡面copy大量小檔案 
時, 速度快不起來, 是一樣的道理。 
51
Q&A 
 Hadoop存放的各個物件檔案, 不建議太小? 
Ans:因為namenode在記憶體中存儲hdfs中的檔資訊。每個檔案、目錄 
或區塊(block)需要大約150Byte 
如果HDFS 有一百萬個檔案或資料夾, 則共需要150 Byte * 1000000 
/1024/1024 = 143MB的記憶體空間, 建議粗估300MB(Name node : 
heap size) 
而真正的速度影響是, 在執行map-reduce工作時, 需要不斷的去 
reference參照各個檔案, 造成Java MR process的時候, Name node與 
data node交換的檔案資訊變多, 大大的拖慢了parsing的速度。 
另外一個考量, 
存放一百萬個檔案,每個都是64 MB,那空間總共為64 TB。如果平均 
每個是64 KB,那只能儲存64 GB。 
52
Q&A 
 Hadoop平台上如何提升安全性? 
Ans: 
就如同Linux上面的安全性, 建議使用kerberos認證機制, 以Apache 
hadoop 為例, 
eclipse client僅需要知道Hadoop user account就可以冒名登入並存 
取Apache hadoop HDFS上面的檔案,各廠如Cloudera 也慢慢注意到代 
碼上面有漏洞而修正此問題. 
P.S.關於機密資料, 應存放在傳統資料庫上, 等到需與Hadoop關聯時, 再 
進行資料關聯. 
53
工商時間 
54
Competitors for Real Time Analysis 
(In-Memory Computing) 
1. IBM InfoSphere Streams 
2.IBM Websphere Business Events 
3. Informatica Complex Event Processing 
4.Oracle Complex Event Processing 
5.SAP Sybase Event Stream Processor. 
6. Microsoft StreamInsight 
7.HP Tandem 
8.EMC GemFire Real-Time Events
EDW appliance 
 Oracle Exadata 
 HP PDW for MSSQL 2012 
 IBM Netezza Data Warehouse Appliance 
 EMC Greenplum Appliance 
 Teradata Appliance 
56
Thank you !!! 
2014/10/24 57

More Related Content

What's hot

What could hadoop do for us
What could hadoop do for us What could hadoop do for us
What could hadoop do for us Simon Hsu
 
Hadoop 0.20 程式設計
Hadoop 0.20 程式設計Hadoop 0.20 程式設計
Hadoop 0.20 程式設計Wei-Yu Chen
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座NTC.im(Notch Training Center)
 
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法Jazz Yao-Tsung Wang
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验Hanborq Inc.
 
大資料分析技術的濫觴
大資料分析技術的濫觴大資料分析技術的濫觴
大資料分析技術的濫觴家雋 莊
 
Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Jazz Yao-Tsung Wang
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況Jazz Yao-Tsung Wang
 
淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践Min Zhou
 
Bigdata 大資料分析實務 (進階上機課程)
Bigdata 大資料分析實務 (進階上機課程)Bigdata 大資料分析實務 (進階上機課程)
Bigdata 大資料分析實務 (進階上機課程)家雋 莊
 
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Etu Solution
 
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...Etu Solution
 
Hadoop Map Reduce 程式設計
Hadoop Map Reduce 程式設計Hadoop Map Reduce 程式設計
Hadoop Map Reduce 程式設計Wei-Yu Chen
 
Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望Jazz Yao-Tsung Wang
 
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform SecurityJazz Yao-Tsung Wang
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验Schubert Zhang
 

What's hot (20)

What could hadoop do for us
What could hadoop do for us What could hadoop do for us
What could hadoop do for us
 
When R meet Hadoop
When R meet HadoopWhen R meet Hadoop
When R meet Hadoop
 
Hadoop 0.20 程式設計
Hadoop 0.20 程式設計Hadoop 0.20 程式設計
Hadoop 0.20 程式設計
 
Hdfs
HdfsHdfs
Hdfs
 
Life of Big Data Technologies
Life of Big Data TechnologiesLife of Big Data Technologies
Life of Big Data Technologies
 
Hdfs
HdfsHdfs
Hdfs
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
 
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验
 
大資料分析技術的濫觴
大資料分析技術的濫觴大資料分析技術的濫觴
大資料分析技術的濫觴
 
Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)Big Data Projet Management the Body of Knowledge (BDPMBOK)
Big Data Projet Management the Body of Knowledge (BDPMBOK)
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
 
淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践淘宝Hadoop数据分析实践
淘宝Hadoop数据分析实践
 
Bigdata 大資料分析實務 (進階上機課程)
Bigdata 大資料分析實務 (進階上機課程)Bigdata 大資料分析實務 (進階上機課程)
Bigdata 大資料分析實務 (進階上機課程)
 
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
Track A-3 Enterprise Data Lake in Action - 搭建「活」的企業 Big Data 生態架構
 
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
 
Hadoop Map Reduce 程式設計
Hadoop Map Reduce 程式設計Hadoop Map Reduce 程式設計
Hadoop Map Reduce 程式設計
 
Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望Hadoop 生態系十年回顧與未來展望
Hadoop 生態系十年回顧與未來展望
 
2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security2016-07-12 Introduction to Big Data Platform Security
2016-07-12 Introduction to Big Data Platform Security
 
Hadoop大数据实践经验
Hadoop大数据实践经验Hadoop大数据实践经验
Hadoop大数据实践经验
 

Viewers also liked

Viewers also liked (19)

Winess
WinessWiness
Winess
 
Thesis introduction
Thesis introductionThesis introduction
Thesis introduction
 
INFLUENCE OF LEADERSHIP TRAITS ON TEAM PERFORMANCE AS CORRELATES OF SUCCESS I...
INFLUENCE OF LEADERSHIP TRAITS ON TEAM PERFORMANCE AS CORRELATES OF SUCCESS I...INFLUENCE OF LEADERSHIP TRAITS ON TEAM PERFORMANCE AS CORRELATES OF SUCCESS I...
INFLUENCE OF LEADERSHIP TRAITS ON TEAM PERFORMANCE AS CORRELATES OF SUCCESS I...
 
City & guilds 2399
City & guilds 2399City & guilds 2399
City & guilds 2399
 
Ramana ppt
Ramana pptRamana ppt
Ramana ppt
 
הגדלת מכירות לחברות www.fabexa.com
הגדלת מכירות לחברות www.fabexa.comהגדלת מכירות לחברות www.fabexa.com
הגדלת מכירות לחברות www.fabexa.com
 
TEDxCoimbra
TEDxCoimbraTEDxCoimbra
TEDxCoimbra
 
Becomingtheboss 1
Becomingtheboss 1Becomingtheboss 1
Becomingtheboss 1
 
Amul
AmulAmul
Amul
 
1007 rdg geek
1007 rdg geek1007 rdg geek
1007 rdg geek
 
Dejar de comer (mal)
Dejar de comer (mal)Dejar de comer (mal)
Dejar de comer (mal)
 
스타트업을 위한 기획강박탈출@campus seoul
스타트업을 위한 기획강박탈출@campus seoul스타트업을 위한 기획강박탈출@campus seoul
스타트업을 위한 기획강박탈출@campus seoul
 
Calcium Supplement
Calcium SupplementCalcium Supplement
Calcium Supplement
 
20170213 о Коране и Арифметике циклов Времени
20170213 о Коране и Арифметике циклов Времени20170213 о Коране и Арифметике циклов Времени
20170213 о Коране и Арифметике циклов Времени
 
Emotions
EmotionsEmotions
Emotions
 
20170227 Значение 10,12,13 (12+1),70,72 апостолов
20170227 Значение 10,12,13 (12+1),70,72 апостолов20170227 Значение 10,12,13 (12+1),70,72 апостолов
20170227 Значение 10,12,13 (12+1),70,72 апостолов
 
Scatizzi
ScatizziScatizzi
Scatizzi
 
The story of a UI trainer
The story of a UI trainerThe story of a UI trainer
The story of a UI trainer
 
inQuest intro
inQuest introinQuest intro
inQuest intro
 

Similar to Hadoop 介紹 20141024

Hadoop与数据分析
Hadoop与数据分析Hadoop与数据分析
Hadoop与数据分析George Ang
 
選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲Herman Wu
 
善用 MySQL 及 PostgreSQL - RDBMS 的逆襲 - part1
善用 MySQL 及 PostgreSQL - RDBMS 的逆襲 - part1善用 MySQL 及 PostgreSQL - RDBMS 的逆襲 - part1
善用 MySQL 及 PostgreSQL - RDBMS 的逆襲 - part1Yi-Feng Tzeng
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里li luo
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理Kay Yan
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理airsex
 
淘宝分布式数据处理实践
淘宝分布式数据处理实践淘宝分布式数据处理实践
淘宝分布式数据处理实践isnull
 
HDFS與MapReduce架構研討
HDFS與MapReduce架構研討HDFS與MapReduce架構研討
HDFS與MapReduce架構研討Billy Yang
 
Hadoop系统及其关键技术
Hadoop系统及其关键技术Hadoop系统及其关键技术
Hadoop系统及其关键技术冬 陈
 
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Anna Yen
 
Data Engineering in Taiwan: PAST, NOW and FUTURE
Data Engineering in Taiwan: PAST, NOW and FUTUREData Engineering in Taiwan: PAST, NOW and FUTURE
Data Engineering in Taiwan: PAST, NOW and FUTUREJazz Yao-Tsung Wang
 
High Throughput Computing Technologies
High Throughput Computing TechnologiesHigh Throughput Computing Technologies
High Throughput Computing TechnologiesJazz Yao-Tsung Wang
 
Big Java, Big Data
Big Java, Big DataBig Java, Big Data
Big Java, Big DataKuo-Chun Su
 
Dreaming Infrastructure
Dreaming InfrastructureDreaming Infrastructure
Dreaming Infrastructurekyhpudding
 
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015   hadoop enables enterprise data lakeHadoop con 2015   hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lakeJames Chen
 
百度系统部分布式系统介绍 马如悦 Sacc2010
百度系统部分布式系统介绍 马如悦 Sacc2010百度系统部分布式系统介绍 马如悦 Sacc2010
百度系统部分布式系统介绍 马如悦 Sacc2010Chuanying Du
 
Hadoop yarn 基本架构和发展趋势
Hadoop yarn 基本架构和发展趋势Hadoop yarn 基本架构和发展趋势
Hadoop yarn 基本架构和发展趋势Xicheng Dong
 
應用Ceph技術打造軟體定義儲存新局
應用Ceph技術打造軟體定義儲存新局應用Ceph技術打造軟體定義儲存新局
應用Ceph技術打造軟體定義儲存新局Alex Lau
 

Similar to Hadoop 介紹 20141024 (20)

Hadoop与数据分析
Hadoop与数据分析Hadoop与数据分析
Hadoop与数据分析
 
選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲
 
善用 MySQL 及 PostgreSQL - RDBMS 的逆襲 - part1
善用 MySQL 及 PostgreSQL - RDBMS 的逆襲 - part1善用 MySQL 及 PostgreSQL - RDBMS 的逆襲 - part1
善用 MySQL 及 PostgreSQL - RDBMS 的逆襲 - part1
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理
 
大规模数据处理
大规模数据处理大规模数据处理
大规模数据处理
 
淘宝分布式数据处理实践
淘宝分布式数据处理实践淘宝分布式数据处理实践
淘宝分布式数据处理实践
 
HDFS與MapReduce架構研討
HDFS與MapReduce架構研討HDFS與MapReduce架構研討
HDFS與MapReduce架構研討
 
Hadoop系统及其关键技术
Hadoop系统及其关键技术Hadoop系统及其关键技术
Hadoop系统及其关键技术
 
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
 
Data Engineering in Taiwan: PAST, NOW and FUTURE
Data Engineering in Taiwan: PAST, NOW and FUTUREData Engineering in Taiwan: PAST, NOW and FUTURE
Data Engineering in Taiwan: PAST, NOW and FUTURE
 
High Throughput Computing Technologies
High Throughput Computing TechnologiesHigh Throughput Computing Technologies
High Throughput Computing Technologies
 
Hadoop
HadoopHadoop
Hadoop
 
Big Java, Big Data
Big Java, Big DataBig Java, Big Data
Big Java, Big Data
 
Hic2011
Hic2011Hic2011
Hic2011
 
Dreaming Infrastructure
Dreaming InfrastructureDreaming Infrastructure
Dreaming Infrastructure
 
Hadoop con 2015 hadoop enables enterprise data lake
Hadoop con 2015   hadoop enables enterprise data lakeHadoop con 2015   hadoop enables enterprise data lake
Hadoop con 2015 hadoop enables enterprise data lake
 
百度系统部分布式系统介绍 马如悦 Sacc2010
百度系统部分布式系统介绍 马如悦 Sacc2010百度系统部分布式系统介绍 马如悦 Sacc2010
百度系统部分布式系统介绍 马如悦 Sacc2010
 
Hadoop yarn 基本架构和发展趋势
Hadoop yarn 基本架构和发展趋势Hadoop yarn 基本架构和发展趋势
Hadoop yarn 基本架构和发展趋势
 
應用Ceph技術打造軟體定義儲存新局
應用Ceph技術打造軟體定義儲存新局應用Ceph技術打造軟體定義儲存新局
應用Ceph技術打造軟體定義儲存新局
 

Hadoop 介紹 20141024

  • 1. Big Data : Hadoop Jay Chu ccrchu@gmail.com 1
  • 2. The Gartner - Top 10 Technology Trends for the Energy and Utilities Sector in 2013  Social Media and Web 2.0  Big Data  Mobile and Location-Aware Technology  Cloud Computing and SaaS  Sensor Technology  In-Memory Computing  IT and OT Convergence  Advanced Metering Infrastructure  Communication Technology  Predictive Analytics 2 http://www.gartner.com/newsroom/id/2426515
  • 3. The Gartner  By 2017, the CMO will spend more on IT than the CIO." (Gartner)  根據Gartner 對全球CIO 調查顯示,BYOD(員工 自攜設備)普及率將在2017年突破五成,最終將達 到85% 3 http://my.gartner.com/portal/server.pt?open=512&objID=202&mode=2&PageID=5553&resId=1871515 http://blog.cloudsherpas.com/cloud-strategy-2/how-to-use-itsm-to-manage-your-byod-strategy/
  • 5. Big Data 該何去何從 「能不能請你好心的告訴我,我應該往那個方向去呢?」愛麗絲問。 「這完全要看你想去哪裡了?」貓這麼回答著。 「我不是很在意要去哪兒...」愛麗絲說。 「既然這樣,你往哪個方向走就沒那麼重要。」貓說。 「.....只要我真能到某個地方」愛麗絲補充道。 「喔,妳一定能到某個地方的,」貓說:「只要你走得夠久」 5
  • 6. Data Science 資料科學 6 http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
  • 7. Data Science? Big Data? 都不熟怎麼辦? 如何取得資料? 爬文/ 爬網頁/ social media/ 7 如何取得open data? 資料的正確性與即時性? 如何從網路上探訪資料的關聯性? 我要去哪裡找到這樣的 數學家與統計專家與領域專家? BTW, 數學家不 熟Programming !!! 如何從Machine Learning開始入門? 顧客的分 群與喜好、潛在客戶會是那些人? 如何發展感測器sensor? 物聯網, 手機ARM CPU 內建省電的藍芽4.0模組
  • 8. Father of Hadoop  Google 的啟發 GFS, Map-Reduce, Bigtable  Doug Cutting - Hadoop 之父 從Lucene, Nutch到Hadoop 8
  • 9. Hadoop  巨量資料分析  擅長離線資料分析  分散式文件系統+計算框架  Hadoop不是資料庫, HBase才是  發展快速的eco-system  Hadoop 會適用在那些行業? 9
  • 10. Hadoop 的應用價值  Mediam Latency, batch jobs  For lower latency: In-Memory Computing/ Streaming Computing (CEP) 10
  • 11. Open Source Big data project Solution Developer Type Description Storm Twitter Streaming Twitter's new streaming big-data analytics solution S4 Yahoo! Streaming Distributed stream computing platform from Yahoo! Hadoop Apache Batch First open source implementation of the MapReduce paradigm Spark UC Berkeley AMPLab Batch Recent analytics platform that supports in-memory data sets and resiliency Disco Nokia Batch Nokia's distributed MapReduce framework HPCC LexisNexis Batch HPC cluster for big data http://www.ibm.com/developerworks/library/os-twitterstorm/
  • 12. Big Data : 4V 12 Ref: http://contest.trendmicro.com/2013/tw/train.htm
  • 13. MR in Brief  可以把MR的過程想像成一家醬料工廠 原物料有: 番茄、辣椒、洋蔥、蒜頭、紅椒、 起司、香料  將原料切細的過程, 稱為Map  將細末轉化成不同的醬料, 稱為Reduce 13
  • 14. Splitting Tasks to Sub-tasks 14
  • 15. HDFS Read 15 Name Node Data Node Data Node Data Node Data Node Local disk name,replica,block_id,, /home/data/test, 3 …etc Local disk Local disk Local disk 1 2 3 name block_id, loc Transfer data block_operation(heartbeat, replication, re-balancing
  • 16. HDFS Write 16 Name Node 1 2 create Write data doing replica (data replication) 3 Data Node Data Node Data Node Data Node Local disk Local disk Local disk Local disk 4 Ack packet 5 Finish
  • 17. Secondary NameNode HDFS Fault Tolerance 17 Name Node Data Node Data Node Data Node Local disk Local disk Local disk Data Node Local disk
  • 18. NameNode HA?  Cloudera NAS  Hortonworks Linux Cluster HA or vSphere vMotion  Apache Hadoop QJM, BackupNode  Other Industry Solution Veritas VCS/VVR, Linux DRBD 18
  • 19. Hadoop – Big Database?  空間占用為TB ~ PB 以上  儲存非結構化與結構化資料  半結構化資料可以為AP logs, GPS data , machine/sensor data  非結構化圖像, 錄影, 錄音檔或任何檔案 19
  • 20. Mapreduce - Dataflow 20 Split 0 Split 1 Split 2 Map 0 Map 1 Map 2 Key a Key b Key a Key b Key a Key a Key b Reduce 0 Split 0 Reduce 1 Split 1 Input HDFS Merge Output HDFS Key b
  • 21. MR- Word Count 21 < Hello, 1> < World, 1> < Bye, 1> < World, 1> < Hello, 1> < Hadoop, 1> < Goodbye, 1> < Hadoop, 1> Bye 1 Goodbye 1 Hadoop 1 Hello 2 World 2 hadoop 1 goodbye 1 hadoop 2 hello 2 world 2 Hello World Bye World Hello Hadoop Goodbye Hadoop
  • 22. MR- Word Count 標籤雲 22
  • 23. MR- Via shell script 23 使用shell script 進行workcount, 可將HDFS檔案 透過streaming的方式處理 $ hadoop jar hadoop-*-streaming.jar -input input - output output -mapper /bin/cat -reducer /usr/bin/wc
  • 24. Data Service Framework 24 Sqoop HBase 豬 HCatalog 顧象人 蜂窩 Zoo Keeper 水槽
  • 25. Highlighting Component in Hadoop 25 Component Description Mahout Scalable machine learning algorithms YARN NextGen MapReduce - Resource management and job scheduling Shark 100X faster than Hive for SQL Spark Spark can run up to 100x faster than Hadoop MapReduce Rhipe R language faster than Java MR Solr A NoSQL Search Server and Big Data Analytics tool Storm The Hadoop of Realtime Stream Processing
  • 26. HDFS  Hadoop Distributed File System  Designed Base on Google Filesystem  Provides high-throughput access  Ideal for big table access  Fault tolerence 26
  • 27. HBase  Hadoop-based project  NoSQL/Key-Value Database  分散式即時資料庫  Store structured data storage for large tables  開發者存取資料需透過JAVA 實作出SQL Function/ Join 的效果來 27
  • 28. Pig  Pig Latin 資料流語言  Don’t need to know Java ,實作並簡化了Java Map reduce  User-defined Functions(UDF)  Parse and manipulate HDFS data (GROUP、SORT、FILTER、JOIN) 28
  • 29. Pig example : HCatalog 29
  • 30. Mahout Framework  基於Hadoop的data analytic/ data mining的推 薦引擎  Mahout演算法, 運用Linear Algebra, 將計算後的 結果存放在HBase  近似Near-Rear-Time結果可透過Web UI呈現  由於資料存放在HBase, 查詢時間為固定可預測 的(predictable)  使用以下Machine Language(ML)技術: • 叢集(Clustering) • 分類(Categorization) • 協同過濾(Collaborative filtering) 30
  • 31. Mahout Framework  協同過濾(Collaborative filtering) 31
  • 32. Hadoop 各版本分支  Apache open-source 版本  Hortonworks  Cloudera CDH  MapR (distribute namenode 核心)  EMC Greenplum  趨勢(internal use)/ 百度 32
  • 33. Hadoop 特點  Share-nothing架構  支援MPP高效大量平行處理能力  可橫向擴充(scale-out)  HDFS預設自動將資料做複寫三份  使用PC等級硬體即可運作  使用Java language編寫、或結合php, python使用串 流方式處理資料  節點數量越多效能越好  資料離線分析 33
  • 34. Hadoop 缺點  如果多個使用者, 須自行開發程式或透過LDAP來 隔開用戶。  除了Java MapReduce架構外, 須研究ML  資料管理機制大多為指令介面  只有兩個Name node存放檔案meta-data  與RDBMS之間搬移資料須熟悉Sqoop或其他ETL 工具  並無提供DR機制, 需使用DisCp指令備份資料至異 地之Haoop Cluster 34
  • 35. Hadoop資料安全 • 資料安全性的迷思 資料安全如同Linux like系統, 可運用Kerberos/ nis server的認證機制 • 建議設計 Hadoop上不應該放機密資料, 僅需要放id 或key等 等的資訊, 重要機密資訊例如: 客戶個人資料, 帳目資料, 敏感資料, 應放在RDBMS 上面, 當需要時, 才從RDB與Hadoop查詢、correlate出 關聯資料。 35
  • 36. Benchmark Measurements  DFSIO- MapReduce Benchmark  YCSB- Yahoo! Cloud Serving Benchmark  Terasort  Teragen 36
  • 37. 各大廠所推出的Hadoop appliance  HP AppSystem for Apache Hadoop  HP HAVEn  Oracle's Big Data Appliance  IBM PureData  EMC Greenplum DCA (Data Computing Appliance)  NetApp Open Solution for Hadoop 37
  • 38. LET’S TAKE A BREAK 38
  • 39. Q&A  Big data 是否就是雲端? Big data與雲端為兩種不同的概念, 可以把Big Data 想像成, 我的dropbox資料, 不管它存放在哪裡, 都會 有資料備援. 雲端不需要把她想得太神妙~ 台灣廠商與SI喜歡把硬 體跟雲端綁在一起, 軟體的供裝與測試開發加速, 才 會是雲端所能提供的優勢。 39
  • 40. Big Data SQL Query Engine  Cloudera Impala: SQL-92  EMC Greenplum : SQL-92, SQL-99, SQL 2003 OLAP  HP Vertica : A sub-Set of SQL-99  IBM Biginsight : SQL-92, SQL-99, SQL-99 OLAP aggregation functions , SQL 2003 windowed aggregate  Apache/MapR Drill SQL 2003 40
  • 41. Big Data SQL Query Engine(Con’d)  Trafodion(HP, ANSI SQL support, ACID)  Apache Hive  Presto(Facebook)  Shark  Apache Pheonix(for Hbase) 41
  • 42. Big Data SQL Query Engine(Con’d)  HBase Query : HareDB (台灣亦思科技研發)  Hortonworks : Stinger with Hive, Phoenix with HBase  Pivotal HD Enterprise : ANSI-92 SQL 42
  • 43. Data Mining 的商業價值  大賣場: 星期五晚上,買啤酒的人大多也會買尿布。  信用卡公司: 快速發現可疑盜刷事件。  行動通訊企業: 使用探勘技術建立顧客流失預測模型。 異常大量一對多電話,透過軌跡判斷可能為廣告或 詐騙。  金融業: 應用金融商品價格趨勢變化預測。 43
  • 44. When to use Hadoop/EDW? 44
  • 45. 45
  • 46. Why Hadoop and RDBMS co-exists ?  Do SQL/OLAP analytics in DBMS is easier?  Do Hive/MR analytics in Hadoop is faster? 46
  • 47. Q&A  關於sizing 部分, 應如何細部規劃?  我們知道的部份是Hadoop 預設抄寫三份資料,如此的話應 會有2/3 空間的預留HDFS data block backup,例如使用 Hortonworks framework,50TB 與1PB 容量, 對於Name Node, Data Node 的建議數量,以及空間建議。 Ans: 如果資料需要50TB, 則Data Node的總可用大小就必須為 50TB x 3 = 150TB。 Name Node通常使用記憶體來處理HDFS io request, 如果使用 較大的block size(ex: 128MB, 則對name node的壓力會較小), 建議對Name node分配較大的記憶體, 例如128GB RAM 47
  • 48. Q&A  Hortonworks 建議Name Node 使用RAID 做資料保護, Data Node不須使用RAID 做資料保護…但實際商用情形是 如何? Ans: 可根據實際情形做調整, 像是Hortonworks的name node並無 HA功能, 所以建議用raid 作保護, 而現存設備通常交給硬體 raid(不管是name node, data node均如此) 。 如節點數較少,小於十個, 建議都使用raid disk保護。 48
  • 49. Q&A  關於Hadoop Hortonworks DR 機制的實際案例或建議? Ans: Hadoop的精神裡面已經沒有DR了~通常會在同一個site, 如做 DR機制可針對HBASE定期做資料的提取搬移到異地, 或使用 rsync copy HDFS上面的重要檔案至異地端。 49
  • 50. Q&A  Hadoop Hive/Hbase 與RDBMS 同時存在的必要性?  如透過Hive能呈現出的歷史資料(e.g. historical data & report 能呈現出十分鐘以前的Map-Reduce 產出資料),是 否就不需要RDBMS? Ans: 針對客戶已經有DB的部分, Hadoop 會有加分作用, 像是針對某 電信單位的Teradata, 有一半Job都在處理data cleansing的動 作, 像是這樣可以分散DB server的loading, 與DB使用空間, 讓 DB專心做BI/EDW。 若針對新環境建議, 則是以使用需求為主, 同時存在則可以彈性 對Hadoop 做簡單的商業行為分析, 與對Hbase做多緯度的 OLAP分析行為(需要Java Coding)。 50
  • 51. Q&A  Hadoop存放的block size為何建議不能太小, 至 少64MB或128MB? Ans:Block size如果太小, 容易有一個問題, 當data node重開機或毀損時, 太多細小檔案, 會增加copy replica的時間, 就好比在linux裡面copy大量小檔案 時, 速度快不起來, 是一樣的道理。 51
  • 52. Q&A  Hadoop存放的各個物件檔案, 不建議太小? Ans:因為namenode在記憶體中存儲hdfs中的檔資訊。每個檔案、目錄 或區塊(block)需要大約150Byte 如果HDFS 有一百萬個檔案或資料夾, 則共需要150 Byte * 1000000 /1024/1024 = 143MB的記憶體空間, 建議粗估300MB(Name node : heap size) 而真正的速度影響是, 在執行map-reduce工作時, 需要不斷的去 reference參照各個檔案, 造成Java MR process的時候, Name node與 data node交換的檔案資訊變多, 大大的拖慢了parsing的速度。 另外一個考量, 存放一百萬個檔案,每個都是64 MB,那空間總共為64 TB。如果平均 每個是64 KB,那只能儲存64 GB。 52
  • 53. Q&A  Hadoop平台上如何提升安全性? Ans: 就如同Linux上面的安全性, 建議使用kerberos認證機制, 以Apache hadoop 為例, eclipse client僅需要知道Hadoop user account就可以冒名登入並存 取Apache hadoop HDFS上面的檔案,各廠如Cloudera 也慢慢注意到代 碼上面有漏洞而修正此問題. P.S.關於機密資料, 應存放在傳統資料庫上, 等到需與Hadoop關聯時, 再 進行資料關聯. 53
  • 55. Competitors for Real Time Analysis (In-Memory Computing) 1. IBM InfoSphere Streams 2.IBM Websphere Business Events 3. Informatica Complex Event Processing 4.Oracle Complex Event Processing 5.SAP Sybase Event Stream Processor. 6. Microsoft StreamInsight 7.HP Tandem 8.EMC GemFire Real-Time Events
  • 56. EDW appliance  Oracle Exadata  HP PDW for MSSQL 2012  IBM Netezza Data Warehouse Appliance  EMC Greenplum Appliance  Teradata Appliance 56
  • 57. Thank you !!! 2014/10/24 57

Editor's Notes

  1. Hacking skills that make for a successful data hacker, 具有從網路上取得資料的專長, 不管是被認可的資料, 或是不允許被流通的個資, 都有可能在網路上找到 Math and Stats knowledge: 具有 數學家, 統計學家專長, 屬於學者 Substantive Expertise: Someone who has substantial experience and knowledge, 相當具有solid 經驗, 與知識的專家們
  2. Hacking skills that make for a successful data hacker, 具有從網路上取得資料的專長, 不管是被認可的資料, 或是不允許被流通的個資, 都有可能在網路上找到 Math and Stats knowledge: 具有 數學家, 統計學家專長, 屬於學者 Substantive Expertise: Someone who has substantial experience and knowledge, 相當具有solid 經驗, 與知識的專家們
  3. Machine learning : 比data mining 更客觀的資料查找方法 Data mining : 銀行從刷卡累積金額中, 找出現金回饋的用戶, 是該從信用良好的開始, 還是從年薪大於80萬的開始? 啤酒跟尿布的例子
  4. (Massively parallel processing)
  5. YCSB: Yahoo! Cloud Serving Benchmark
  6. Ref: http://stackoverflow.com/questions/10764493/namenode-file-quantity-limit http://f.dataguru.cn/thread-174725-1-1.html https://www.google.com.tw/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0CC4QFjAA&url=http%3A%2F%2Fforum.hadoop.tw%2Fviewtopic.php%3Ff%3D4%26t%3D36007&ei=O_8nUtGJBcnHlAXE34GwBQ&usg=AFQjCNE6Nh_SXYxYE7twoV3UkEji4Gn6_w&sig2=oyQVOlyBhfVttq6xWS7FtA
  7. Ref: http://stackoverflow.com/questions/10764493/namenode-file-quantity-limit http://f.dataguru.cn/thread-174725-1-1.html https://www.google.com.tw/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0CC4QFjAA&url=http%3A%2F%2Fforum.hadoop.tw%2Fviewtopic.php%3Ff%3D4%26t%3D36007&ei=O_8nUtGJBcnHlAXE34GwBQ&usg=AFQjCNE6Nh_SXYxYE7twoV3UkEji4Gn6_w&sig2=oyQVOlyBhfVttq6xWS7FtA