SlideShare a Scribd company logo
1 of 83
Download to read offline
AI / Big Data資料分析師 DB103梅花組
1
專題⽬標
資料搜集( ETL )
專題架構
成品發表
功能及技術說明
成員介紹
產業新聞(分群演算)
描述搜尋(文字探勘)
薪資預測(數值演算)
職缺氣象( 視覺化 )
相由⼼⽣(影像辨識)
⾯試捕⼿( IOT、巨量資料串流 )
報告流程
報告流程
LET’S GO
我們的初衷
專題⽬標
1
2
3
在⼈⼒資源網上的職缺多如⽜⽑,描述不⼀…
本作品使⽤LineChatbot,彙整並分析各⼈⼒資源網上的
重要資訊。簡單幾個鍵,協助新鮮⼈的⽣涯決策。
履歷是開啟職業⽣涯的敲⾨磚
可惜的是,新鮮⼈會犯下許多常⾒的錯誤。本作品將在履
歷的照片上,給予選擇的建議。
如何⾯試的時候⼤放異彩
你所表現的儀態,其實是影響結果的重要因素。本作品將
錄製你的⾯試模樣,進⾏儀態和表情評估,提供建議。
專案⽬標
專題⽬標
做好⾯試
為此,我們期望建立⼀個好上
⼿的聊天機器⼈,幫助使⽤者
寫好履歷找好⽅向
功能模組
功能模組
Line Chat Bot
找好⽅向
職缺
氣象
薪資
預測
描述
搜尋
寫好
履歷
產業
新聞
相由
⼼⽣
做好
⾯試
⾯試
捕⼿
使⽤者
介⾯
功能類型
功能模組
功能說明
功能說明
Client
Line
Chatbot
職缺氣象
DB
104
1111
產業新聞
…
爬蟲
ETL
描述性
資訊報表
相由⼼⽣
深度學習
演算照片類型
照片
適切度判斷
⾯試捕⼿
即時
⾏為攝影
深度學習
演算儀態表現
薪資預測
輸入
職缺網址
篩選條件
機器學習
演算薪資模型 薪資預測值
儀態回饋報告
上傳相片
產業新聞 所選類型
文章推薦
影像
串流
描述搜尋
IOT
樹梅派
輸入
描述語句
Tableau
文字分類器
演算、匹配
職業類型
判斷職業類型
作品⽰範
曾⼠哲 ⾼珮菁 譚國懌 吳智軒 江振瑋
P M DBMA 資料分析師 演算法⼯程師 資料⼯程師
負責
項⽬
專題架構
薪資預測
LineBot
資料處理與管理
產業新聞
描述搜尋
職缺氣象
相由⼼⽣
⾯試捕⼿
數據串流
使⽤
技術
• 專案管理(PM)
• 資料探勘(DM)
• 機器學習(ML)
• 前端網⾴設計
(Flask、Line)
• 資料爬蟲
• 資料清潔(ETL)
• 資料庫設計(DB)
• 分群演算
(K-Means)
• 資料爬蟲
• 資料清潔(ETL)
• 文字探勘
(單純⾙式)
• 資料爬蟲
• 圖形辨識
• 深度學習(遷移
學習VGG16 &
ResNet50)
• 視覺化
(Tableau)
• 巨量資料架構
(Hadoop、
Spark Stream、
Kafka)
• 深度學習
(OpenPose、
PyTorch)
成
員
介
紹
成員介紹
功能及技術說明
資料搜集
ETL
⾼珮菁
爬蟲收集就業市場上所有的職缺資訊,包
括公司資料、⼯作內容、需要技術、學經
歷要求、福利薪資、職缺介紹,以及產業
新聞等,清潔儲存後,⽅便其他功能進⾏
資料存取。
功能資料流
資料搜集
產業新聞
分群模型
薪資預測
模型
文字探勘
模型
描述性統計
(視覺化)
Extract 資料收集
資料搜集
爬取筆數 去除重複
⼈⼒銀⾏
職缺資訊
104 204,356
約30萬1111 162,609
518 28,732
公司資訊
104 30,960
約6萬1111 25,052
518 9,232
產業新聞 IEK
(物聯網、資通訊)
62,075 約5.5萬
Extract 資料收集
資料搜集
步驟1:觀察網站結構
◦ https://www.104.com.tw/jobs/search/?ro=1&j
obcat=2005000000&order=11&asc=0&page=
1&mode=s
◦ 變數:
全職⼯作、每⾴顯⽰筆數、⾴數、職務類別
◦ 職缺總筆數
問題:
◦ ⾴數、筆數限制。
◦ 無法判別最後⼀⾴。
◦ 職缺條件列表與內容,每個職缺不同。
步驟2:制定crawler步驟及⽅法
◦ 將職務類別的資訊,存入MySQL
◦ 依職務類別爬取職缺URL及公司URL,存入MySQL
◦ 將職缺的資訊爬取下來,存成json檔
◦ 將公司的資訊爬取下來,存成json檔
Extract 資料收集
資料搜集
1111 104
Extract 資料收集
資料搜集
• 步驟3:改進抓取時間 –
多執⾏緒threading
公司資訊
單執⾏緒
職缺資訊
多執⾏緒
2.5萬筆 = 2.2hr 16萬筆 = 2.3hr
效率提升85%
Extract 資料收集
資料搜集
• 步驟4:爬取資料存入Mongodb
Transform資料清理
資料搜集
job 職缺資料
job_tool 職缺所需⼯具
job_skill 職缺所需技能
job_department 職缺科系要求
job_status 職缺接受⾝分
company 公司資料
ER Model
Transform資料清理
資料搜集
• 產業類別(以104為主)
• 職務類別(以104為主)
• 接受⾝分
• 應徵⼈數
• ⼯作地區
統⼀類別(⾃訂字典)
產業類別 職務類別
Transform資料清理
資料搜集
• 管理責任
• 出差外派
• 上班時段
• 學歷要求
文字轉類別
原始資料 類別
“不需負擔管理責任”、”管理⼈數未定” Yes、No
“無需出差外派”、”需出差”、”需外派” Yes、No
“⽇班/晚班,08:00~17:30,需輪班” ⽇班、晚班、⼤夜班、輪班
“⾼中以下、⾼中、專科、⼤學” 最低:國中;最⾼:⼤學
Transform資料清理
資料搜集
• ⼯作待遇
• ⼯作經驗
• 管理⼈數
• 需求⼈數
文字轉數值
⽉薪 44,120~46,580元 è
3年以上⼯作經驗 è
10⼈以內 è
1~2⼈ è
產業新聞
使⽤者選擇想看的「新聞類型」,系統將
隨機提供該類型的近期新聞。
⾼珮菁
功能資料流
產業新聞
Jieba 中文斷詞與關鍵字萃取
產業新聞
原新聞
(未斷詞)
原新聞
(有斷詞)
每⼀篇新
聞20個關
鍵字
jieba.analyse.extract_tags:基於TF-IDF 算法的關鍵詞抽取功能
文本訊息精煉度
語料庫 詞向量
原新聞(有斷詞) (10465, 81808)
每篇新聞20個關鍵字 (10465, 20750)
資
料
預
處
理
完
成
產業新聞
TF/IDF並實作分群
產業新聞
• ⽬標:將新聞分為4群,⽅便LineChatbot使⽤
語料庫 詞向量 TF/IDF 詞矩陣 Kmeans score
原新聞(有斷詞) (10465, 81808)
81808 無法執⾏
max_features = 30 0.1015
每篇新聞
20個關鍵字
(10465, 20750)
20750 0.0048
max_features = 30 0.0729
使⽤Spark分析
-0.05
分群結果比較
產業新聞
20750詞向量TF/IDF取30個特徵
5
G
企
業
表
現
中
美
貿
易
智
慧
產
業
81808詞向量TF/IDF取30個特徵
描述搜尋
譚國懌
使⽤者描述預期的⼯作項⽬,或是輸入個
⼈的專⾴能⼒,系統將演算與各職業⼯作
內容的匹配程度,預測歸屬的職業類型。
執⾏步驟
描述搜尋
步驟⼀:從資料庫抓取訓練文字模型所需資料
步驟⼆:⼯作內容⽤jieba做斷詞與處理
步驟三:把資料分成訓練集與測試集
步驟四:將斷完詞後的⼯作內容轉換成詞袋向量
步驟五:把訓練集丟進模型訓練並且⽤測試集看準確率
步驟六:改善與測試模型
步驟七:比較模型準確率並選擇模型
步驟⼀
從資料庫抓取訓練文字模型
所需資料
描述搜尋
步驟⼆
⼯作內容⽤jieba做斷詞處理
描述搜尋
步驟三
把資料分成訓練集與測試集
描述搜尋
步驟四
將斷完詞後的⼯作內容轉換
成詞袋向量
描述搜尋
步驟五
把訓練集丟進模型訓練並且
⽤測試集看準確率
描述搜尋
直接使⽤職業類別(中)(44種職業類別)分類版本
職業類別(⼤)
分類模型(第⼀層)
第一大類中
職業類別(中)
分類模型
(第⼆層)
第⼆⼤類中
職業類別(中)
分類模型
(第⼆層)
第三⼤類中
職業類別(中)
分類模型
(第⼆層)
第四⼤類中
職業類別(中)
分類模型
(第⼆層)
第五⼤類中
職業類別(中)
分類模型
(第⼆層)
第六⼤類中
職業類別(中)
分類模型
(第⼆層)
因為準確率不盡理想
嘗試使⽤職業類別(⼤)共來當作第⼀層分類
再依照每個職類去做模型
使⽤職業類別(⼤)來做分類模型訓練
⼀樣直接把所有資料丟進模型中訓練
分類準確率上升到79.6%
步驟五
把訓練集丟進模型訓練並且
⽤測試集看準確率
描述搜尋
步驟六
改善與測試模型
描述搜尋
改善⽅法⼀:
增加職稱.⼯具.證照.其他條件等多個欄位
Before
After
步驟六
改善與測試模型
描述搜尋
改善⽅法⼆:控制資料筆數
Before After
步驟七
比較並選擇模型
描述搜尋
模型 六⼤類別
分類準確率
(第⼀層)
第⼀⼤類中
職業類別(中)
分類準確率
第⼆⼤類
職業類別(中)
分類準確率
第三⼤類
職業類別(中)
分類準確率
第四⼤類
職業類別(中)
分類準確率
第五⼤類
職業類別(中)
分類準確率
第六⼤類
職業類別(中)
分類準確率
單純
⾙⽒
分類
模型
僅⼯作
內容 79.64% 87.67% 92.33% 84.50% 84.44% 77.17% 71.46%
完整
資訊 84.01% 90.76% 95.63% 90.91% 89.71% 80.42% 80.18%
KNN
分類
模型
僅⼯作
內容 77.42% 67.76% 84.67% 73.56% 73.89% 60.17% 56.58%
完整
資訊 81.93% 79.87% 88.28% 73.48% 83.43% 74.59% 70.98%
模型 準確率
單純⾙⽒分類模型 67.82%
KNN分類模型 65%
⽅案⼀:使⽤⼀個模型來分所有職業類別(中)
⽅案⼆:分兩層模型,第⼀層分出職業類別(⼤)
之後再⽤第⼆層分職業類別(中)
薪資預測
曾⼠哲
製作薪資演算模型,針對沒有顯⽰薪資
(薪資⾯議)的職缺,擷取職缺資訊進⾏
運算,提供使⽤者薪資預測的功能。預測
包括:「薪資最⼤值」及「薪資最⼩值」
資料分析與建模流程
薪資預測
1. 了解並清理原始資料
2. 設計並產⽣衍⽣變數
3. 考量模型需求,產⽣虛擬變數(Dummy Variable)
4. 製作訓練、測試資料集數
5. 建立模型、檢視模型成效
資料分析與建模流程
薪資預測
1. 觀察資料
2. 檢查nan、null
3. 處理極端值
4. 合併稀疏類別
了
解
並
清
理
原
始
資
料
資料分析與建模流程
薪資預測
了
解
並
清
理
原
始
資
料
無薪⽔(Y)樣本刪除 無公司資料樣本刪除
1. 觀察資料
2. 檢查nan、null
3. 處理極端值
4. 合併稀疏類別
資料分析與建模流程
薪資預測
了
解
並
清
理
原
始
資
料
1. 觀察資料
2. 檢查nan、null
3. 處理極端值
4. 合併稀疏類別
資料分析與建模流程
薪資預測
了
解
並
清
理
原
始
資
料
1. 觀察資料
2. 檢查nan、null
3. 處理極端值
4. 合併稀疏類別
資料分析與建模流程
薪資預測
設
計
並
產
⽣
衍
⽣
變
數
資料分析與建模流程
薪資預測
產
⽣
虛
擬
變
數
資料分析與建模流程
薪資預測
製
作
訓
練
︑
測
試
資
料
集
數
資料分析與建模流程
薪資預測
建
立
模
型
︑
檢
視
模
型
成
效
提升預測準確度:分層模型
薪資預測
原始做法:
將所有數據丟入模型進⾏訓練
調整做法:
將不同產業類型的數據,各別建立預測模型
⺠⽣服務
傳產製造
資訊科技
⼯商服務
文教傳播
提升預測準確度:分層模型
薪資預測
模型 ⺠⽣服務 傳產製造 資訊科技 ⼯商服務 文教傳播
原始
做法
R2
0.22
MAPE 12.8
調整
做法
R2
0.12 0.19 0.34 0.23 0.46
MAPE 11 12 12.6 11.8 10.2
Y = Salary_min
提升預測準確度:分層模型
薪資預測
模型 ⺠⽣服務 傳產製造 資訊科技 ⼯商服務 文教傳播
原始
做法
R2
0.22
MAPE 12.8
調整
做法
R2
0.12 0.19 0.34 0.23 0.46
MAPE 11 12 12.6 11.8 10.2
Y = Salary_min
職缺氣象
吳智軒
彙整爬蟲搜集所獲得之資料,以Tableau視
覺化圖表後,提供職缺分佈、條件要求及
薪資範疇等重點視覺化資訊,讓使⽤者能
得其所需。
使⽤Tableau之原因
職缺氣象
• 數據兼容性強,適⽤於多種數據文件與資料庫
• 操作簡單的拖放式介⾯,易上⼿
• 擁有多樣化的數據圖表
資料同步
職缺氣象
⽀援多種資料庫及文件
Dashboard資料同步:職缺分佈
職缺氣象
可選擇
職業類別
Dashboard資料同步:條件要求
職缺氣象
Dashboard資料同步:薪資範圍
職缺氣象
相由⼼⽣
吳智軒
根據統計,⼈資平均花費不到8-20秒掃描
過⼀份履歷,若履歷上有嚴重的錯誤,就
有可能被快速刪除。其中,照片的選擇,
是留下良好第⼀印象的關鍵要因。本作品
將辨識使⽤者的照片,是否適合⽤在履歷
表上,避免履歷被秒刪之疑慮
功能資料流
相由⼼⽣
照片類型標記
相由⼼⽣
證件照風格 學⼠照風格 ⽣活照風格
照片類型標記
相由⼼⽣
⽣活照風格
資料前處理
相由⼼⽣
• 訓練集影像分類 :共6000張圖片,每類2000張
• Image resize : 照片⼤⼩都不⼀樣 , 統⼀尺⼨為 224 * 224
• Train size : 80%
• Test size : 20%
• Final_batch = 50
深度學習
相由⼼⽣
卷積神經網路(Convolutional neural network, CNN)
捲積運算
Convolution Convolution
Pooling
Fully
Connected
萃取特徵
Pooling
照片太少?怎麼進⾏深度學習
相由⼼⽣
Transfer Learning
1. What is Transfer Learning?
• 把預訓練模型(即已訓練好的模型)參數遷移⾄
新的模型。
2. Why Transfer Learning?
• 節省時間
• 適⽤於⼩數據集
• 訓練硬體成本低
•13個卷積層 ( Convolutional Layer )
•5個池化層( Pooling Layer )
•3個全連接層(Fully connected Layer)
使⽤VGG16模型結構訓練
照片分類模型
67
…
使⽤ResNet50模型結構訓練
照片分類模型
梯度消失問題?
68
模型選擇
相由⼼⽣
Model size Train time 準確率
VGG16 650MB 3分鐘 0.82
ResNet-50 28.3MB 10分鐘 0.85
VGG16
ResNet50
模型應⽤:pickle
相由⼼⽣
• 使⽤pickle套件來保存與讀取訓練好的Model
讀取模型直
接辨識照片
將模型程式序列化(打包)
成pickle檔,
需要時可直接讀取模型
⾯試捕⼿
江振瑋
使⽤者開啟此功能後,可開始進⾏模擬⾯
試,由系統出題,使⽤者答題。設計在使
⽤者前端、側端共兩台的樹莓派相機,傳
送⾯試影像到後端進⾏分析,結束後提供
評比與建議
⽬的
u減少⾯試時的常⾒錯誤
u調整姿態、⾯容情緒
面試捕手
recording
功能
uOpenPose解析體態
uVGG-19遷移學習分析情緒
u輸出體態與情緒的正確率
架構
u⾼吞吐與⼤量數據運算、儲存
uKafka與Spark Streaming即時串流分析
功能資料流
⾯試捕⼿
Sequence file
概念形式
⾯試捕⼿
啟動
資料串流
⾯試捕⼿
照片
資料串流
⾯試捕⼿
照片
資料串流
⾯試捕⼿
體態 情緒
資料串流
⾯試捕⼿
OpenPose
圖片
資料串流
⾯試捕⼿
結果體態情緒
輸出結果
⾯試捕⼿
輸出結果
未來展望
Onemorething…
1. ⽬前的資料為該季之資訊,未來要將爬蟲、ETL、資料庫同步
進⾏更新,讓所有功能的資料保持在最新狀態。
2. 持續追蹤使⽤者的功能偏好,增加、編輯本聊天機器⼈所擁有
之功能,如職缺地圖等。
3. 個⼈的職業選擇,公司的⼈⼒資源管理,是⼀體兩⾯,雙向溝
通的過程。故本作品模組,可成為「⼈⼒資源資訊系統」
(HRIS)在徵才上的功能原型,⽬標在運⾏後,有效降低招
募成本。
Thank you for listening!

More Related Content

Similar to 扶搖職上

基于Ht rca缺陷分析的测试改进-china test-张玲玲
基于Ht rca缺陷分析的测试改进-china test-张玲玲基于Ht rca缺陷分析的测试改进-china test-张玲玲
基于Ht rca缺陷分析的测试改进-china test-张玲玲drewz lin
 
QM-057-品質顧問生涯經驗分享
QM-057-品質顧問生涯經驗分享QM-057-品質顧問生涯經驗分享
QM-057-品質顧問生涯經驗分享handbook
 
QM-025-QC新七大工具
QM-025-QC新七大工具QM-025-QC新七大工具
QM-025-QC新七大工具handbook
 
锐普Ppt(案例汇总)
锐普Ppt(案例汇总)锐普Ppt(案例汇总)
锐普Ppt(案例汇总)echotoo
 
2.ie培訓教材
2.ie培訓教材2.ie培訓教材
2.ie培訓教材營松 林
 
簡報規劃與技巧
簡報規劃與技巧簡報規劃與技巧
簡報規劃與技巧基欽 劉
 
工作圈上課講義
工作圈上課講義工作圈上課講義
工作圈上課講義5045033
 
流程及價值管理
流程及價值管理流程及價值管理
流程及價值管理聰敏 陳
 
腾讯大讲堂39 数据运营规划理念及方法概要介绍
腾讯大讲堂39 数据运营规划理念及方法概要介绍腾讯大讲堂39 数据运营规划理念及方法概要介绍
腾讯大讲堂39 数据运营规划理念及方法概要介绍George Ang
 
QM-060-問題分析與解決能力提升
QM-060-問題分析與解決能力提升QM-060-問題分析與解決能力提升
QM-060-問題分析與解決能力提升handbook
 
2009美國團精彩回顧
2009美國團精彩回顧2009美國團精彩回顧
2009美國團精彩回顧基欽 劉
 
2009美國團精彩回顧
2009美國團精彩回顧2009美國團精彩回顧
2009美國團精彩回顧CPCRDI
 
腾讯大讲堂39 数据运营规划理念及方法概要介绍
腾讯大讲堂39 数据运营规划理念及方法概要介绍腾讯大讲堂39 数据运营规划理念及方法概要介绍
腾讯大讲堂39 数据运营规划理念及方法概要介绍PMCamp
 
2_學院碩士班_分群模型_20220606.pdf
2_學院碩士班_分群模型_20220606.pdf2_學院碩士班_分群模型_20220606.pdf
2_學院碩士班_分群模型_20220606.pdfFEG
 
企業個案報告寫作(2012版)
企業個案報告寫作(2012版)企業個案報告寫作(2012版)
企業個案報告寫作(2012版)基欽 劉
 
事件媒合平台企劃書
事件媒合平台企劃書事件媒合平台企劃書
事件媒合平台企劃書Norika
 

Similar to 扶搖職上 (20)

基于Ht rca缺陷分析的测试改进-china test-张玲玲
基于Ht rca缺陷分析的测试改进-china test-张玲玲基于Ht rca缺陷分析的测试改进-china test-张玲玲
基于Ht rca缺陷分析的测试改进-china test-张玲玲
 
20150206 aic machine learning
20150206 aic machine learning20150206 aic machine learning
20150206 aic machine learning
 
Qcc
QccQcc
Qcc
 
預測性分析
預測性分析預測性分析
預測性分析
 
QM-057-品質顧問生涯經驗分享
QM-057-品質顧問生涯經驗分享QM-057-品質顧問生涯經驗分享
QM-057-品質顧問生涯經驗分享
 
QM-025-QC新七大工具
QM-025-QC新七大工具QM-025-QC新七大工具
QM-025-QC新七大工具
 
锐普Ppt(案例汇总)
锐普Ppt(案例汇总)锐普Ppt(案例汇总)
锐普Ppt(案例汇总)
 
2.ie培訓教材
2.ie培訓教材2.ie培訓教材
2.ie培訓教材
 
簡報規劃與技巧
簡報規劃與技巧簡報規劃與技巧
簡報規劃與技巧
 
工作圈上課講義
工作圈上課講義工作圈上課講義
工作圈上課講義
 
流程及價值管理
流程及價值管理流程及價值管理
流程及價值管理
 
解决问题
解决问题解决问题
解决问题
 
腾讯大讲堂39 数据运营规划理念及方法概要介绍
腾讯大讲堂39 数据运营规划理念及方法概要介绍腾讯大讲堂39 数据运营规划理念及方法概要介绍
腾讯大讲堂39 数据运营规划理念及方法概要介绍
 
QM-060-問題分析與解決能力提升
QM-060-問題分析與解決能力提升QM-060-問題分析與解決能力提升
QM-060-問題分析與解決能力提升
 
2009美國團精彩回顧
2009美國團精彩回顧2009美國團精彩回顧
2009美國團精彩回顧
 
2009美國團精彩回顧
2009美國團精彩回顧2009美國團精彩回顧
2009美國團精彩回顧
 
腾讯大讲堂39 数据运营规划理念及方法概要介绍
腾讯大讲堂39 数据运营规划理念及方法概要介绍腾讯大讲堂39 数据运营规划理念及方法概要介绍
腾讯大讲堂39 数据运营规划理念及方法概要介绍
 
2_學院碩士班_分群模型_20220606.pdf
2_學院碩士班_分群模型_20220606.pdf2_學院碩士班_分群模型_20220606.pdf
2_學院碩士班_分群模型_20220606.pdf
 
企業個案報告寫作(2012版)
企業個案報告寫作(2012版)企業個案報告寫作(2012版)
企業個案報告寫作(2012版)
 
事件媒合平台企劃書
事件媒合平台企劃書事件媒合平台企劃書
事件媒合平台企劃書
 

扶搖職上