扶搖職上

AI / Big Data資料分析師 DB103梅花組
1

專題⽬標
資料搜集（ＥＴＬ）
專題架構
成品發表
功能及技術說明
成員介紹
產業新聞（分群演算）
描述搜尋（文字探勘）
薪資預測（數值演算）
職缺氣象（視覺化）
相由⼼⽣（影像辨識）
⾯試捕⼿（ IOT、巨量資料串流）
報告流程
報告流程

我們的初衷
專題⽬標
1
2
3
在⼈⼒資源網上的職缺多如⽜⽑，描述不⼀…
本作品使⽤LineChatbot，彙整並分析各⼈⼒資源網上的
重要資訊。簡單幾個鍵，協助新鮮⼈的⽣涯決策。
履歷是開啟職業⽣涯的敲⾨磚
可惜的是，新鮮⼈會犯下許多常⾒的錯誤。本作品將在履
歷的照片上，給予選擇的建議。
如何⾯試的時候⼤放異彩
你所表現的儀態，其實是影響結果的重要因素。本作品將
錄製你的⾯試模樣，進⾏儀態和表情評估，提供建議。

專案⽬標
專題⽬標
做好⾯試
為此，我們期望建立⼀個好上
⼿的聊天機器⼈，幫助使⽤者
寫好履歷找好⽅向

功能模組
功能模組
Line Chat Bot
找好⽅向
職缺
氣象
薪資
預測
描述
搜尋
寫好
履歷
產業
新聞
相由
⼼⽣
做好
⾯試
⾯試
捕⼿
使⽤者
介⾯
功能類型
功能模組

功能說明
功能說明
Client
Line
Chatbot
職缺氣象
DB
104
1111
產業新聞
…
爬蟲
ETL
描述性
資訊報表
相由⼼⽣
深度學習
演算照片類型
照片
適切度判斷
⾯試捕⼿
即時
⾏為攝影
深度學習
演算儀態表現
薪資預測
輸入
職缺網址
篩選條件
機器學習
演算薪資模型薪資預測值
儀態回饋報告
上傳相片
產業新聞所選類型
文章推薦
影像
串流
描述搜尋
IOT
樹梅派
輸入
描述語句
Tableau
文字分類器
演算、匹配
職業類型
判斷職業類型

曾⼠哲⾼珮菁譚國懌吳智軒江振瑋
P M ＤＢＭＡ資料分析師演算法⼯程師資料⼯程師
負責
項⽬
專題架構
薪資預測
LineBot
資料處理與管理
產業新聞
描述搜尋
職缺氣象
相由⼼⽣
⾯試捕⼿
數據串流
使⽤
技術
• 專案管理(PM)
• 資料探勘(DM)
• 機器學習(ML)
• 前端網⾴設計
(Flask、Line)
• 資料爬蟲
• 資料清潔(ETL)
• 資料庫設計(DB)
• 分群演算
(K-Means)
• 資料爬蟲
• 資料清潔(ETL)
• 文字探勘
(單純⾙式)
• 資料爬蟲
• 圖形辨識
• 深度學習(遷移
學習VGG16 &
ResNet50)
• 視覺化
(Tableau)
• 巨量資料架構
(Hadoop、
Spark Stream、
Kafka）
• 深度學習
(OpenPose、
PyTorch）
成
員
介
紹
成員介紹

資料搜集
ＥＴＬ
⾼珮菁
爬蟲收集就業市場上所有的職缺資訊，包
括公司資料、⼯作內容、需要技術、學經
歷要求、福利薪資、職缺介紹，以及產業
新聞等，清潔儲存後，⽅便其他功能進⾏
資料存取。

功能資料流
資料搜集
產業新聞
分群模型
薪資預測
模型
文字探勘
模型
描述性統計
（視覺化）

Extract 資料收集
資料搜集
爬取筆數去除重複
⼈⼒銀⾏
職缺資訊
104 204,356
約30萬1111 162,609
518 28,732
公司資訊
104 30,960
約6萬1111 25,052
518 9,232
產業新聞 IEK
(物聯網、資通訊)
62,075 約5.5萬

資料搜集
步驟1：觀察網站結構
◦ https://www.104.com.tw/jobs/search/?ro=1&j
obcat=2005000000&order=11&asc=0&page=
1&mode=s
◦ 變數：
全職⼯作、每⾴顯⽰筆數、⾴數、職務類別
◦ 職缺總筆數
問題：
◦ ⾴數、筆數限制。
◦ 無法判別最後⼀⾴。
◦ 職缺條件列表與內容，每個職缺不同。

步驟2：制定crawler步驟及⽅法
◦ 將職務類別的資訊，存入MySQL
◦ 依職務類別爬取職缺URL及公司URL，存入MySQL
◦ 將職缺的資訊爬取下來，存成json檔
◦ 將公司的資訊爬取下來，存成json檔
資料搜集
1111 104

資料搜集
• 步驟3：改進抓取時間 –
多執⾏緒threading
公司資訊
單執⾏緒
職缺資訊
多執⾏緒
2.5萬筆 = 2.2hr 16萬筆 = 2.3hr
效率提升85%

資料搜集
• 步驟4：爬取資料存入Mongodb

Transform資料清理
資料搜集
job 職缺資料
job_tool 職缺所需⼯具
job_skill 職缺所需技能
job_department 職缺科系要求
job_status 職缺接受⾝分
company 公司資料
ER Model

資料搜集
• 產業類別(以104為主)
• 職務類別(以104為主)
• 接受⾝分
• 應徵⼈數
• ⼯作地區
統⼀類別(⾃訂字典)
產業類別職務類別

資料搜集
• 管理責任
• 出差外派
• 上班時段
• 學歷要求
文字轉類別
原始資料類別
“不需負擔管理責任”、”管理⼈數未定” Yes、No
“無需出差外派”、”需出差”、”需外派” Yes、No
“⽇班/晚班，08:00~17:30，需輪班” ⽇班、晚班、⼤夜班、輪班
“⾼中以下、⾼中、專科、⼤學” 最低：國中；最⾼：⼤學

資料搜集
• ⼯作待遇
• ⼯作經驗
• 管理⼈數
• 需求⼈數
文字轉數值
⽉薪 44,120~46,580元 è
3年以上⼯作經驗 è
10⼈以內 è
1~2⼈ è

產業新聞
使⽤者選擇想看的「新聞類型」，系統將
隨機提供該類型的近期新聞。
⾼珮菁

Jieba 中文斷詞與關鍵字萃取
產業新聞
原新聞
(未斷詞)
原新聞
(有斷詞)
每⼀篇新
聞20個關
鍵字
jieba.analyse.extract_tags：基於TF-IDF 算法的關鍵詞抽取功能
文本訊息精煉度
語料庫詞向量
原新聞(有斷詞) (10465, 81808)
每篇新聞20個關鍵字 (10465, 20750)

資
料
預
處
理
完
成
產業新聞

TF/IDF並實作分群
產業新聞
• ⽬標：將新聞分為4群，⽅便LineChatbot使⽤
語料庫詞向量 TF/IDF 詞矩陣 Kmeans score
原新聞(有斷詞) (10465, 81808)
81808 無法執⾏
max_features = 30 0.1015
每篇新聞
20個關鍵字
(10465, 20750)
20750 0.0048
max_features = 30 0.0729
使⽤Spark分析
-0.05

分群結果比較
產業新聞
20750詞向量TF/IDF取30個特徵
5
G
企
業
表
現
中
美
貿
易
智
慧
產
業
81808詞向量TF/IDF取30個特徵

描述搜尋
譚國懌
使⽤者描述預期的⼯作項⽬，或是輸入個
⼈的專⾴能⼒，系統將演算與各職業⼯作
內容的匹配程度，預測歸屬的職業類型。

執⾏步驟
描述搜尋
步驟⼀：從資料庫抓取訓練文字模型所需資料
步驟⼆：⼯作內容⽤jieba做斷詞與處理
步驟三：把資料分成訓練集與測試集
步驟四：將斷完詞後的⼯作內容轉換成詞袋向量
步驟五：把訓練集丟進模型訓練並且⽤測試集看準確率
步驟六：改善與測試模型
步驟七：比較模型準確率並選擇模型

步驟⼀
從資料庫抓取訓練文字模型
所需資料
描述搜尋

步驟⼆
⼯作內容⽤jieba做斷詞處理
描述搜尋

步驟三
把資料分成訓練集與測試集
描述搜尋

步驟四
將斷完詞後的⼯作內容轉換
成詞袋向量
描述搜尋

步驟五
把訓練集丟進模型訓練並且
⽤測試集看準確率
描述搜尋
直接使⽤職業類別(中)(44種職業類別)分類版本

職業類別(⼤)
分類模型(第⼀層)
第一大類中
職業類別(中)
分類模型
(第⼆層)
第⼆⼤類中
職業類別(中)
分類模型
(第⼆層)
第三⼤類中
職業類別(中)
分類模型
(第⼆層)
第四⼤類中
職業類別(中)
分類模型
(第⼆層)
第五⼤類中
職業類別(中)
分類模型
(第⼆層)
第六⼤類中
職業類別(中)
分類模型
(第⼆層)
因為準確率不盡理想
嘗試使⽤職業類別(⼤)共來當作第⼀層分類
再依照每個職類去做模型

使⽤職業類別(⼤)來做分類模型訓練
⼀樣直接把所有資料丟進模型中訓練
分類準確率上升到79.6%
步驟五
把訓練集丟進模型訓練並且
⽤測試集看準確率
描述搜尋

步驟六
改善與測試模型
描述搜尋
改善⽅法⼀：
增加職稱.⼯具.證照.其他條件等多個欄位
Before
After

步驟六
改善與測試模型
描述搜尋
改善⽅法⼆：控制資料筆數
Before After

步驟七
比較並選擇模型
描述搜尋
模型六⼤類別
分類準確率
(第⼀層)
第⼀⼤類中
職業類別(中)
分類準確率
第⼆⼤類
職業類別(中)
分類準確率
第三⼤類
職業類別(中)
分類準確率
第四⼤類
職業類別(中)
分類準確率
第五⼤類
職業類別(中)
分類準確率
第六⼤類
職業類別(中)
分類準確率
單純
⾙⽒
分類
模型
僅⼯作
內容 79.64% 87.67% 92.33% 84.50% 84.44% 77.17% 71.46%
完整
資訊 84.01% 90.76% 95.63% 90.91% 89.71% 80.42% 80.18%
KNN
分類
模型
僅⼯作
內容 77.42% 67.76% 84.67% 73.56% 73.89% 60.17% 56.58%
完整
資訊 81.93% 79.87% 88.28% 73.48% 83.43% 74.59% 70.98%
模型準確率
單純⾙⽒分類模型 67.82%
KNN分類模型 65%
⽅案⼀：使⽤⼀個模型來分所有職業類別(中)
⽅案⼆：分兩層模型，第⼀層分出職業類別(⼤)
之後再⽤第⼆層分職業類別(中)

薪資預測
曾⼠哲
製作薪資演算模型，針對沒有顯⽰薪資
（薪資⾯議）的職缺，擷取職缺資訊進⾏
運算，提供使⽤者薪資預測的功能。預測
包括：「薪資最⼤值」及「薪資最⼩值」

資料分析與建模流程
薪資預測
1. 了解並清理原始資料
2. 設計並產⽣衍⽣變數
3. 考量模型需求，產⽣虛擬變數（Dummy Variable）
4. 製作訓練、測試資料集數
5. 建立模型、檢視模型成效

薪資預測
1. 觀察資料
2. 檢查nan、null
3. 處理極端值
4. 合併稀疏類別
了
解
並
清
理
原
始
資
料

薪資預測
了
解
並
清
理
原
始
資
料
無薪⽔（Y）樣本刪除無公司資料樣本刪除
1. 觀察資料
2. 檢查nan、null
3. 處理極端值

薪資預測
了
解
並
清
理
原
始
資
料
1. 觀察資料
2. 檢查nan、null
3. 處理極端值

薪資預測
設
計
並
產
⽣
衍
⽣
變
數

薪資預測
產
⽣
虛
擬
變
數

薪資預測
製
作
訓
練
︑
測
試
資
料
集
數

薪資預測
建
立
模
型
︑
檢
視
模
型
成
效

提升預測準確度：分層模型
薪資預測
原始做法：
將所有數據丟入模型進⾏訓練
調整做法：
將不同產業類型的數據，各別建立預測模型
⺠⽣服務
傳產製造
資訊科技
⼯商服務
文教傳播

提升預測準確度：分層模型
薪資預測
模型⺠⽣服務傳產製造資訊科技⼯商服務文教傳播
原始
做法
R2
0.22
MAPE 12.8
調整
做法
R2
0.12 0.19 0.34 0.23 0.46
MAPE 11 12 12.6 11.8 10.2
Y = Salary_min

職缺氣象
吳智軒
彙整爬蟲搜集所獲得之資料，以Tableau視
覺化圖表後，提供職缺分佈、條件要求及
薪資範疇等重點視覺化資訊，讓使⽤者能
得其所需。

使⽤Tableau之原因
職缺氣象
• 數據兼容性強，適⽤於多種數據文件與資料庫
• 操作簡單的拖放式介⾯，易上⼿
• 擁有多樣化的數據圖表

資料同步
職缺氣象
⽀援多種資料庫及文件

Dashboard資料同步：職缺分佈
職缺氣象
可選擇
職業類別

Dashboard資料同步：條件要求
職缺氣象

Dashboard資料同步：薪資範圍
職缺氣象

相由⼼⽣
吳智軒
根據統計，⼈資平均花費不到8-20秒掃描
過⼀份履歷，若履歷上有嚴重的錯誤，就
有可能被快速刪除。其中，照片的選擇，
是留下良好第⼀印象的關鍵要因。本作品
將辨識使⽤者的照片，是否適合⽤在履歷
表上，避免履歷被秒刪之疑慮

照片類型標記
相由⼼⽣
證件照風格學⼠照風格⽣活照風格

照片類型標記
相由⼼⽣
⽣活照風格

資料前處理
相由⼼⽣
• 訓練集影像分類 :共6000張圖片，每類2000張
• Image resize : 照片⼤⼩都不⼀樣 , 統⼀尺⼨為 224 * 224
• Train size : 80%
• Test size : 20%
• Final_batch = 50

深度學習
相由⼼⽣
卷積神經網路(Convolutional neural network, CNN)
捲積運算
Convolution Convolution
Pooling
Fully
Connected
萃取特徵
Pooling

照片太少？怎麼進⾏深度學習
相由⼼⽣
Transfer Learning
1. What is Transfer Learning?
• 把預訓練模型(即已訓練好的模型)參數遷移⾄
新的模型。
2. Why Transfer Learning?
• 節省時間
• 適⽤於⼩數據集
• 訓練硬體成本低

•13個卷積層 ( Convolutional Layer )
•5個池化層( Pooling Layer )
•3個全連接層（Fully connected Layer）
使⽤VGG16模型結構訓練
照片分類模型
67

…
使⽤ResNet50模型結構訓練
照片分類模型
梯度消失問題？
68

模型選擇
相由⼼⽣
Model size Train time 準確率
VGG16 650MB 3分鐘 0.82
ResNet-50 28.3MB 10分鐘 0.85
VGG16
ResNet50

模型應⽤：pickle
相由⼼⽣
• 使⽤pickle套件來保存與讀取訓練好的Model
讀取模型直
接辨識照片
將模型程式序列化(打包)
成pickle檔，
需要時可直接讀取模型

⾯試捕⼿
江振瑋
使⽤者開啟此功能後，可開始進⾏模擬⾯
試，由系統出題，使⽤者答題。設計在使
⽤者前端、側端共兩台的樹莓派相機，傳
送⾯試影像到後端進⾏分析，結束後提供
評比與建議

⽬的
u減少⾯試時的常⾒錯誤
u調整姿態、⾯容情緒
面試捕手
recording
功能
uOpenPose解析體態
uVGG-19遷移學習分析情緒
u輸出體態與情緒的正確率
架構
u⾼吞吐與⼤量數據運算、儲存
uKafka與Spark Streaming即時串流分析

功能資料流
⾯試捕⼿
Sequence file

概念形式
⾯試捕⼿
啟動

資料串流
⾯試捕⼿
照片

資料串流
⾯試捕⼿
體態情緒

資料串流
⾯試捕⼿
OpenPose
圖片

資料串流
⾯試捕⼿
結果體態情緒

輸出結果
⾯試捕⼿
輸出結果

Onemorething…
1. ⽬前的資料為該季之資訊，未來要將爬蟲、ETL、資料庫同步
進⾏更新，讓所有功能的資料保持在最新狀態。
2. 持續追蹤使⽤者的功能偏好，增加、編輯本聊天機器⼈所擁有
之功能，如職缺地圖等。
3. 個⼈的職業選擇，公司的⼈⼒資源管理，是⼀體兩⾯，雙向溝
通的過程。故本作品模組，可成為「⼈⼒資源資訊系統」
（HRIS）在徵才上的功能原型，⽬標在運⾏後，有效降低招
募成本。

扶搖職上

Recommended

Recommended

More Related Content

Similar to 扶搖職上

Similar to 扶搖職上 (20)

扶搖職上