Spark on Yarn & Mongodb(Big Data Platform)

2017.11.01
大數據平台架構
(Spark on Yarn & MongoDB)
-Presentation by Hughe Chen

Agenda
● 大數據平台(Spark on Yarn & MongoDB)簡介
● 環境設定
○ spark
○ mongoDB
● 使用方式-以 northwind 資料集示範

環境設定
• Host :
– i5-4 core, 8G RAM, SATA 256G SSD
– OS:centos7
• Guest :
– spark-2.1.1 on yarn
• nn : 3G ,2core
• dn01 : 2G ,1core
• dn02 : 2G ,1core
– Anaconda2(python2.7.13)
– Mongodb-3.4.6
• replica + sharding
– mongo-spark connector:
• mongo-spark-connector_2.11-2.1.0.jar

平台架構 YARN
(Resource Manager)
name node
Spark
(master & worker 1)
MongoDB
(shard 1)
data node 1 data node 2
Spark
(worker 3)
Spark
(worker 2)
MongoDB
(shard 3)
MongoDB
(shard 2)
replica 1 replica 2 replica 3

spark
• 使用spark on yarn模式
• 使用動態資源分配 - spark當遇到大量task產生時，動態資源分配將會依照
需求啟動第二和三個excutor，等待執行結束之後，將excutor結束，自動歸
還資源。

MongoDB
• 使用 replica + sharding 架構
• 設定 wiredTiger 使用 256MB 的記憶體(每個 mongod 實體，最小需求)
• 盡量將資料集（collection）控制在 wiredTigercache 內，充分利用cache效能

Spark MongoDB平台簡介
• Spark 任務一般由 Spark 的 driver 發起，經過 Spark Master 進行資源調
度分發。
• 每個 excutor 會獨立的去 MongoDB 中取來原始數據，直接套用 spark 提
供的分析算法或者使用自定義流程來處理數據，計算完後把相應結果寫回
到 MongoDB 。

使用方式
pyspark --master yarn --packages org.mongodb.spark:mongo-spark-connector_2.11:2.1.0
● 使用jupyter notebook示範

使用方式 - 以 northwind 資料集示範
● 讀取product , suppliers , categories 三個 collection 作 join

● 讀取product , suppliers , categories 三個 collection 作 join

● 將 join 完的 dataframe 作型態的轉換。

● 調整值為 null 的欄位，將值設定為非 null (mongoDB connector 無法順利轉換 null 值)

● 將 join 後的 dataframe 轉為 rdd 並修改為需要的格式

● 將調整完之後的 rdd 再轉換回 dataframe (配合 connector 需求)

● 將修改完成的 dataframe 存入 mongoDB 中成為新的 collection

Spark on Yarn & Mongodb(Big Data Platform)

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Spark on Yarn & Mongodb(Big Data Platform)

Similar to Spark on Yarn & Mongodb(Big Data Platform) (20)

Spark on Yarn & Mongodb(Big Data Platform)