Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...Etu Solution
講者:SYSTEX 數據加值應用發展部產品經理 | 陶靖霖
議題簡介:認清現實吧! Big Data 是個熱門詞彙、熱門議題,但是問題的核心仍然圍繞在資料處理的流程、架構與技術,要踏入 Big Data 的領域,使用者會遭遇哪些挑戰? Splunk 被譽為「全球最佳的 Big Data Company」,究竟在資料處理的流程中擁有什麼獨特的技術優勢,能夠幫助使用者克服這些挑戰?又有哪些成功幫助使用者從資料中萃取出價值的應用案例?歡迎來認識 Splunk 以及全球 Big Data 成功案例。
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...Etu Solution
講者:SYSTEX 數據加值應用發展部產品經理 | 陶靖霖
議題簡介:認清現實吧! Big Data 是個熱門詞彙、熱門議題,但是問題的核心仍然圍繞在資料處理的流程、架構與技術,要踏入 Big Data 的領域,使用者會遭遇哪些挑戰? Splunk 被譽為「全球最佳的 Big Data Company」,究竟在資料處理的流程中擁有什麼獨特的技術優勢,能夠幫助使用者克服這些挑戰?又有哪些成功幫助使用者從資料中萃取出價值的應用案例?歡迎來認識 Splunk 以及全球 Big Data 成功案例。
This talk is introduce by Junping Du, who is an Apache member and Hadoop PMC, at Apache Event at Tsinghua University in China.
Junping Du comes from Tencent and is the chairman of TOSA.
About the Event:
The open source ecosystem plays more and more important role in the world. Open source software is widely used in operating systems, cloud computing, big data, artificial intelligence, and industrial Internet. Many companies have gradually increased their participation in the open source community. Developers with open source experience are increasingly valued and favored by large enterprises. The Apache Software Foundation is one of the most important open source communities, contributing a large number of valuable open source software and communities to the world.
The invited guests of this lecture are all from ASF community, including the chairman of the Apache Software Foundation, three Apache members, Top 5 Apache code committers (according to Apache annual report), the first Committer in the Hadoop project in China, several Apache project mentors or VPs, and many Apache Committers. They will tell you what the open source culture is, how to join the Apache open source community, and the Apache Way.
在這個資料科學蔚為風潮的年代,身為一個對新技術充滿好奇的攻城獅,自然會想要擴充自己的武器庫,學習嶄新的資料分析工具;而 R 語言,一個由統計學家專門為了資料探索與分析所開發的腳本語言,具有龐大的開源社群支持以及琳瑯滿目、數以萬計的各式套件,正是當今學習資料科學相關工具的首選。
然而,R 語言的設計邏輯與一般的程式語言不同,工程師們過去學習程式語言的經驗,往往造成學習 R 語言的障礙,本課程將從 R 語言的基礎開始,讓同學們從課堂講解以及互動式上機課程中,得以徹底理解 R 語言的核心概念與精要,學習如何利用 R 語言問資料問題,並且從資料分析的角度撰寫效率良好同時具有高度可讀性的 R 語言代碼。
Opening Keynote for HadoopCon 2014
我們的身邊、網路上,圍繞著太多的 Big Data 論述與技術,Hadooper 今天聚集在這裡,都已經是 Big Data 的相關利益者,然而, 今天我們所理解的 Big Data,大部分都是透過自身的體驗而來,但 Hadoop Ecosystem 太過龐雜,Use Case 不同,必須取不同的 OSS 專案來完成,如此想來,我們哪一個人何曾看過所有的 Big Data 風景呢?
此 Talk 告訴我們如何透過更多的風景之窗,將 Big Data 的不同天地,看得更多更透。
16. Paradigm Shift in Architecture
from Computing Center to Data Center
Infiniband Network
Cluster File System
High Density Server
Computing Center
Move Data
To Compute
Message Passing
減少資料搬運
Reduce
Data Transfer
強調能源效率
Energy-
Efficiency
易於橫向擴充
High-
Scalability
Gigabit Ethernet
Distributed File System
Commodity Hardware
Data Center
Move Compute
To Data
Share Noting
17. WHY
Agenda
17
為何需要把 R 跑在多台電腦上?
平行運算的起源、運算類型與限制
Hadoop 與 RHadoop 簡介
如何開始試用 RHadoop ?
WHEN
WHAT
HOW
18. 高資料通量處理平台 Hadoop
Hadoop is a framework for developer
to wrote and execute massive data
processing applications easily.
Hadoop includes two parts: HDFS and MapReduce.
Warehouse
for data source and
output results.
HDFS stores
unstructure data
and structure data
Processing
Map
One in
One out
Grouping
Reduce
Multiple in, One out
18
19. 使用 Hadoop 的優點
19
In-place Computing 在地運算
強調 Data Locality
根據資料所在的位置,分派運算工作到擁有資料的節點上(減少資料搬運)
平行讀取輸入,平行寫出結果
Fault Tolerance 高容錯性
避免單台機器錯誤 ( Single Point of Failure )而造成所有工作失敗
自動依資料量切割成數個子任務,並根據硬體資源量,依序執行
遇到機器故障時,會嘗試將工作分派給另一台執行
44. 若想要找過去舊版或未來新的版本,請至 AMI 分頁
搜尋關鍵字 “Etu Manager”
44
備註:目前 Etu Manager 相關的 AMI 多數
存 在 新 加 坡 Region , 只 有 一 個 在 日 本
Region。搜尋時,請先切換至新加坡。
45. WHY
Agenda
45
為何需要把 R 跑在多台電腦上?
平行運算的起源、運算類型與限制
Hadoop 與 RHadoop 簡介
如何開始試用 RHadoop ?
更多參考資料
WHEN
WHAT
HOW
REF
46. David Chiu 的 RHadoop 演講錄影
https://youtu.be/vmIHge8JSXg
46
47. 看看 R 專家的細部解釋
47
Taking R to the Limit (High Performance Computing in R)
http://www.slideshare.net/bytemining/taking-r-to-the-limit-high-
performance-computing-in-r-part-1-parallelization-la-r-users-group-727
http://www.slideshare.net/bytemining/r-hpc
48. CRAN Task View:
High-Performance and Parallel Computing with R
https://cran.r-project.org/web/views/HighPerformanceComputing.html
48