SlideShare a Scribd company logo
1 of 48
Download to read offline
時間:2019-02-23 (六) 14:00~15:20
地點:台北市復興北路 99 號 2 樓 201 教室 (犇亞會議中心 201 教室)
講者:王耀聰
臺灣資料工程協會 發起人 暨 第一屆理事長 Initiator and Chair, TDEA
前騰學廣告科技 資料架構師 Data Architect, TenMax
前知意圖股份有限公司 產品協理 AVP, Product Management, Etu
前國網中心副研究員 Associate Researcher, NCHC
用小數據看台灣大數據生態系的社群流轉
Observe Changes of Taiwan Big Data Communities with Small Data
本分享將透過實際展示,說明如何善用小數據加上敘述統計的方式,採用
2013 年至 2019 年的 Indeed 職缺列表,來分析探討臺灣產業面對「數位轉
型」所需要的大數據專才需求變化趨勢。
其次,也將分享如何透過爬蟲技巧,蒐集多個臉書粉絲團的成員名單,進而
分析不同技術社群的成員重疊性,若準備時間許可的話,會再做進一步的跨
社群流動趨勢分析。
My Journey of “Innovation”
( aka “From Zero to One” )
用小數據看
台灣大數據生態系的
社群流轉
Observe Changes of Taiwan Big Data
Communities with Small Data
王耀聰 Jazz Yao-Tsung Wang
臺灣資料工程協會 發起人 暨 第一屆理事長 Initiator and Chair, TDEA
Shared at 2019-02-23 < 臺灣資料工程協會 2019 Q1 技術工作坊暨年度會員大會 >
Hello!
I am Jazz Wang
Co-Founder of Hadoop.TW
Initiator and Chair of Taiwan Data Engineering Association (TDEA)
Hadoop Evangelist since 2008.
Open Source Promoter. System Admin (Ops).
- 11 years (2002/08 ~ 2014/02) Associate Researcher in HPC field.
- 2 years (2014/03 ~ 2016/04) Assistant Vice President (AVP),
Product Management of ‘Big Data Platform Management’
- 2 years (2016/04 ~ 2018/06) Data Architect of Real-Time Bidding
You can find me at @jazzwang_tw or
https://fb.com/groups/dataengineering.tw
https://slideshare.net/jazzwang
3
4
Hadoop 滿 13 歲~在台灣也推滿 11 年~
2006 年 2 月 2008 年 4 月
~$ whois hadoop.tw
Domain Name: hadoop.tw
Record created on 2008-04-28 (YYYY-MM-DD)
5
資工資科新解~人格特質與商業模式迥異
- Data Engineer – Vendor Site – 基礎建設 – 銷售週期長 – 仰賴雄厚的資本
- Data Scientist – User Site – 領域知識 – 銷售週期短 – 仰賴創新與想像力
資料工程
產品銷售週期長,業主不願意投資
喜歡解決不同客戶問題、懂得廣但不專
資料科學
產品銷售週期短,需領域知識
擅長找因果關聯,想像力強
6
未來數據驅動的數位企業
需要對資料有手感的員工
產●銷●人●發●財
若你是企業 HR 或獵人頭顧問,
對手現況與潛力人才的數據資料其實藏在某些地方
智慧製造
數位行銷 網路新創
數位金融
Do you believe in “Data-Driven” ??
7
假設你是一個資料科學家,好奇一個問題:
『如何呈現過去五年台灣對於
資料科學/資料工程技能的
產業需求變化?』
思路:
Q1 - 我去哪裡找能呈現這個趨勢的資料?
- 內部資料? 外部資料? 問卷? 樣本數要多少才夠? 取樣象徵性?
Q2 - 該選擇哪些維度(Dimensions)跟量測值(Measures)
- 時間維度? 徵才職缺數量? 需去除多久時間區間內同一個職缺數量嗎?
- 公司名稱? 職缺抬頭? 需要關切同一個職缺在不同時間的出現週期嗎?
8
需求:台灣 Hadoop 近六年的職缺需求成長趨勢
• 資料來源:訂閱 Indeed 通知,台灣出現 Hadoop 的職缺
• 時間範圍:
• 2013/02/07~2019/02/22
http://www.indeed.com/jobtrends/q-Hadoop.html
http://tw.indeed.com/jobs?q=Hadoop&l=Taiwan
9
Indeed 小檔案
• 使用爬蟲收集不同公開職缺與人力銀行的「跨站搜尋」服務
• 離題一下 — 關於「跨站搜尋」的小故事:
• 1998 年我修吳毅成老師「網路程式設計」課程的第二個作業 :)
• PS. 我是交大電控八九級大學/碩士,雖然最後這門課被當掉了~ ( 人生心得分享 )
• 我從大三用 Unix, 研一用 Linux 研二把實驗室 DOS 版 AI/DO 程式改成 Linux 版 …
https://plus.nctu.edu.tw/courses/22241
10
台灣 Hadoop 職缺的敘述統計結果
• 總信件量:1,483 則 ( 將 Gmail 匯出成 mbox 格式,再用 Python 分析)
• 總徵才量:7,256 個職缺
• 總徵才公司量:538 間 ( 尚未去除同義詞)
show-mbox$ cat job_company.txt | awk -F';' '{ print $2 }' | sort -n | uniq | nl |tail -2
537 17 Media
538 21世紀人力資源管理顧問有限公司
產生分析資料 - Indeed.mbox
11https://takeout.google.com/settings/takeout/custom/gmail
由於我不喜歡把 Binary File 送進 Git Repo
會再找其他地方放 Indeed.mbox 方便想做後續分析的人使用
原始資料產出的 CSV 已送進 Git Repo
分析 mbox 的 Python 程式碼
12https://github.com/jazzwang/show-mbox
覺得有參考價值幫我按個星星吧 ☺
資料工程的重要性:資料清洗 (1)
這次演講花了 80% 以上的時間在整理資料
13
Job Company 部分:
1. 發現 2016-11-17 以後,E-mail 中的 HTML 特徵有變化。
2. 2016-11-17 以後的 CSS 有槽狀結構同時包括
class=“sg-paragraph-large” 顯示公司
class=“sg-paragraph-large db” 顯示地理位置
要設法濾除不同的 case
3. 2016-11-17 以後的 HTML Tag 有 “n” 與 “空白” 字元
4. 2018-10-19 以後的 CSS 有槽狀結構同時包括
class=“job-company-name” 顯示公司
資料工程的重要性:資料清洗 (2)
這次演講花了 80% 以上的時間在整理資料
14
Job Location 部分:
1. 發現 2016-11-17 以後,E-mail 中的 HTML 特徵有變化。
2. 2016-11-17 以後的 CSS 有槽狀結構,採用
class=“sg-paragraph-large db” 顯示地理位置
3. 2018-10-19 以後的 CSS 有槽狀結構,採用
class=“job-company-location” 顯示地理位置
4. 2016-11-17 以後的 HTML Tag 有 “n” 與 “空白” 字元
5. 2016-11-17 以後的 HTML Tag 會出現減號 ( - ) 在地名前
資料工程的重要性:資料清洗 (3)
這次演講花了 80% 以上的時間在整理資料
15
Job Title 部分:
1. 發現 2016-11-17 以後,E-mail 中的 HTML 特徵有變化。
2. 2016-11-17 以後的 HTML Tag 混了 ‘ “> ‘ 的額外字串
3. 2016-11-17 以後的 HTML Tag 有 “n” 與 “空白” 字元
結果呈現:採用 Tableau 做資料視覺化
16
數字意義:
內含 Hadoop 關鍵字的職缺出現在 E-mail 通知裡的「次數」
PS. 未考慮該職缺的 URL 連結是否相同(可能是同一個職缺)
數字解讀:
2017 年 11 月出現高於 2016 年 11 月的歷史高峰~
2018 年持續非常強勁的 Hadoop 職缺需求量!!
2019 年回穩,但仍高於 2017 前的水位~
17
合併計算的敘述統計結果:
199 2013 05~12
508 2014 01~12
864 2015 01~12
765 2016 01~12
1177 2017 01~12
3540 2018 01~12
203 2019 01~02
show-mbox$ cat hadoop_jobs.csv | awk -F'-' '{ print $1 }' | sort -n | uniq –c
18
合併計算的敘述
統計結果:
757 01 月
593 02 月
693 03 月
675 04 月
671 05 月
570 06 月
475 07 月
486 08 月
496 09 月
486 10 月
585 11 月
769 12 月
show-mbox$ cat hadoop_jobs.csv | awk -F'-' '{ print $2 }' | sort -n | uniq -c
19
排除 2013 與 2019
兩個不完整的年度
558 12 月
412 11 月
279 01 月
271 10 月
252 08 月
249 09 月
247 03 月
227 05 月
223 07 月
213 04 月
200 02 月
183 06 月
show-mbox$ cat hadoop_jobs.csv | grep -v "^2013" | grep -v "^2019" | awk -F'-' '{ print $2 }' | sort -n | uniq -c | sort -n
276 敦陽科技股份有限公司
268 Lumentum Operations LLC
201 經緯智庫股份有限公司(MGR)
160 遠傳電信股份有限公司
146 台灣新蛋股份有限公司
142 Micron
130 緯創軟體股份有限公司
130 瑞星管理顧問股份有限公司
112 凌群電腦股份有限公司
107 台灣積體電路製造股份有限公司
96 Google
91 願境網訊股份有限公司 = KKBOX
90 台灣積體電路製造股份有限公司(台積電)
89 玉山銀行
88 財團法人工業技術研究院
線上版:https://public.tableau.com/profile/jazz.wang#!/vizhome/Hadoop_Job_Taiwan_2019-02/Dashboard1
20
獵
人
頭
高科技製造業的需求 2018 年變得很強勁
show-mbox$ cat hadoop_jobs.csv | awk -F';' '{ print $2 }' | sort -n | uniq -c | sort -nr | head -15
197
線上版:https://public.tableau.com/profile/jazz.wang#!/vizhome/Hadoop_Job_Taiwan_2019-02/Dashboard1
線上版:https://public.tableau.com/profile/jazz.wang#!/vizhome/Hadoop_Job_Taiwan_2018-06/Dashboard1
21
268 Lumentum Operations LLC
187 敦陽科技股份有限公司
146 台灣新蛋股份有限公司
114 Google
107 台灣積體電路製造股份有限公司
106 經緯智庫股份有限公司(MGR)
93 凌群電腦股份有限公司
92 瑞星管理顧問股份有限公司
91 願境網訊股份有限公司 = KKBOX
90 台灣積體電路製造股份有限公司(台積電)
89 玉山銀行
88 財團法人工業技術研究院
73 中國信託金融控股股份有限公司(中國信託)
72 緯創軟體股份有限公司
72 中華電信股份有限公司
197
show-mbox$ cat hadoop_jobs.csv | awk -F';' '{ print $2 }' | sort -n | uniq -c | sort -nr | head -15
對比 2018 年 6 月的分析結果
276 敦陽科技股份有限公司
268 Lumentum Operations LLC
201 經緯智庫股份有限公司(MGR)
160 遠傳電信股份有限公司
146 台灣新蛋股份有限公司
142 Micron
130 緯創軟體股份有限公司
130 瑞星管理顧問股份有限公司
112 凌群電腦股份有限公司
107 台灣積體電路製造股份有限公司
96 Google
91 願境網訊股份有限公司 = KKBOX
90 台灣積體電路製造股份有限公司(台積電)
89 玉山銀行
88 財團法人工業技術研究院
197
1. Lumentum Operations LLC 在 2018 年 6 月衝到第一名,之後再也沒在增加新的職缺
2. 敦陽科技有持續在找人,2018-06 到 2019-02 共增加了 89 個職缺
3. 遠傳電信突然在 2019 年 2 月衝到第四名
4. 美光 Micron 也是突然在 2019 年 2 月衝到第六名
對比 2016 年 12 月的分析結果
22
23
合併計算的敘述統計結果:
4573 台北市
575 新北市
505 桃園市
391 台中市
345 新竹市
171 高雄市
169 台南市
168 新竹縣
146 台灣
102 苗栗縣
56 桃園縣
18 南投縣
12 新竹科學工業園區
12 屏東縣
5 花蓮縣
4 中部科學工業園區
2 宜蘭縣
1 雲林縣
1 彰化縣
24
合併計算的敘述統計結果:
3380 台北市
478 新北市
428 桃園市
315 新竹市
306 台中市
161 高雄市
148 新竹縣
130 台南市
110 台灣
87 苗栗縣
56 桃園縣
18 南投縣
12 屏東縣
5 花蓮縣
4 新竹科學工業園區
4 中部科學工業園區
2 彰化縣
2 宜蘭縣
1 雲林縣
合併計算的敘述統計結果:
4573 台北市
575 新北市
505 桃園市
391 台中市
345 新竹市
171 高雄市
169 台南市
168 新竹縣
146 台灣
102 苗栗縣
56 桃園縣
18 南投縣
12 新竹科學工業園區
12 屏東縣
5 花蓮縣
4 中部科學工業園區
2 宜蘭縣
1 雲林縣
1 彰化縣
2019-02-22 2018-06-11
對比 2018 年 6 月的分析結果
更多未竟分析
▷ 單獨看 Top 15 廠商的時間分佈
○ 看台灣不同產業的需求變化
■ 電信 → 電商 → 金融 / 新零售
→ 廣告 → 製造 → 醫療(?)
▷ 單獨看 Top 15 廠商的職缺名稱分佈
○ 同一個 Job Title 是否存在相同 URL ?
○ 同一個 Job Title 且具有不同 URL,
分佈在不同時間點,間隔週期有多長?
→ 猜測「離職/異動率」
25
作業?你也能裝 Tableau Public 版,來製作自己的分析報告
▷ Mac OS 開發者: brew cask install tableau-public
26
線上版:https://public.tableau.com/profile/jazz.wang#!/vizhome/Hadoop_Job_Taiwan_2019-02/Dashboard1
線上版:https://public.tableau.com/profile/jazz.wang#!/vizhome/Hadoop_Job_Taiwan_2018-06/Dashboard1
當然你也可以用 Google Data Studio
27
https://datastudio.google.com
為完成以上分析用到的參考連結
## Part 1 : Indeed Job Analytics
1. http://blog.chunnorris.cc/2015/04/python-2x-unicode.html
2. https://stackoverflow.com/questions/3806874/how-to-merge-two-files-
line-by-line-in-bash
3. https://stackoverflow.com/questions/466345/converting-string-into-
datetime
4. https://stackoverflow.com/questions/19351541/excluding-unwanted-
results-of-findall-using-beautifulsoup
5. https://pythonadventures.wordpress.com/2010/10/11/chomp-
functionality-in-python/
6. https://www.cnblogs.com/pylemon/archive/2011/05/18/2050179.html
28
29
假設你是一個資料科學家,好奇一個問題:
『如何呈現過去五年台灣擁有
資料科學/資料工程技能的
人力供給變化?』
思路:
Q1 - 我去哪裡找能呈現這個趨勢的資料?
- 內部資料? 外部資料? 問卷? 樣本數要多少才夠? 取樣象徵性?
Q2 - 該選擇哪些維度(Dimensions)跟量測值(Measures)
- 時間維度? 人才履歷數量?
“老實說我目前只能找到很有限的外部佐證資料
例如:單就有取得國際證照的名單
初步可行來源:LinkedIn Profile
30
取得公開職缺資料相對容易
想取得有技能的名單相對很難 (HR 4.0?)
31
台灣具國際認證的 Hadoop 生態系專才分析
• 需求:找出台灣通過 Cloudera (CCDH/CCAH) 認證的人數
• 資料來源:通過認證者會被加入一個 LinkedIn 隱藏群組
• 取得方法:
• 2015-05-12 起,LinkedIn 將開發者的 API 權限做了大幅度限縮
• 目前只能透過 LinkedIn 的搜尋介面才能取得名單
• 查詢結果:
• 目前台灣只有 62 位 Cloudera 認證登錄於 LinkedIn 上
32
LinkedIn Advanced People Search
• 全美有 3837 位認證專才
• Cloudera (119),Apple ( 79)
Cognizant (68),eBay (55)
Hortonworks (47)
• 產業別
• IT、軟體、網路、金融服務與國防太空
33
Hadoop 應用已跨多產業,但台灣數位空洞令人憂心
• 需求方:台灣產業導入 Hadoop 生態系的大略順序
• 電信 (2012) → 電商/零售/遊戲/內容 → 金融/製造/廣告 (2015)
• 供給方:從獨立新創,漸回歸系統整合(SI)商與代理商
{ 趨勢三 }
大數據技術專才走向
「斷層化」
34
技 人
解讀雲端大數據新趨勢
Big Data Stack on The Cloud
Shared at 2018-05-16 < iThome Cloud Summit 2018 >
35
有工作經驗者比較容易舉一反三,觸類旁通,靠轉職補給人力
無工作經驗者欠缺引導、學習地圖,人力補給速度緩慢
人
才
外
流
新
興
領
域
斷層化!數位經濟人力缺口日益擴大!
大數據專才未來極可能往雲服務供應商集中
36~我們需要共同面對的困境~
「潛在」對資料科學資料工程有興趣的名單來源 — 臉書
37
https://www.facebook.com/groups/dataengineering.tw https://www.facebook.com/groups/datasci.tw
我本來想用 Facebook Graph API 來更新 2019 年的現況數據
38
https://github.com/HadoopTW/communities-dashboard
事隔三年,Facebook
Graph API 也從 2.10 版
進到 3.0 版。
很多權限設定跟可以
取得資料的方式
都有所改變
礙於個人準備時間有限
只好考慮「方法二」
備案: Selenium
Graph API 已經於 2018-04-04 取消查詢粉絲團會員名單的支援
https://developers.facebook.com/docs/graph-api/reference/v3.2/group/members
40
Hadoop.TW 臉書粉絲團
• 資料來源:粉絲團會員列表
• Hadoop.TW 臉書粉絲團共有 5,534 名成員(@2018-06-13)
• Facebook Graph API 並沒有提供加入粉絲團的日期欄位
• 只好靠 HTML 的內容去解析加入日期、工作地點與學校
加入時間
學校
任職公司
2018-06-13 的
粉絲團成員列表
41
Hadoop.TW / Spark.TW 臉書粉絲團
• 資料來源:粉絲團會員列表
• Hadoop.TW 臉書粉絲團共有 5,589 名成員(@2019-02-23)
• Spark.TW 臉書粉絲團共有 2,571 名成員(@2019-02-23)
2019-02-23 的
粉絲團成員列表
(FB界面又換了)
在寫不同粉絲團
的爬蟲時才驚覺
有沒有管理者的
身份也有不同的
Layout
Selenium Python Sample Code
42
https://github.com/HadoopTW/communities-dashboard/tree/master/fb_members_selenium
1. HadoopTWFBMembers.py 是有管理者權限的參考版本
2. Spark.tw-fb-members.py 是一般粉絲團會員的參考版本
43
Hadoop.TW 臉書粉絲團「量」的分析
• 2013 年也曾分享過跨不同臉書粉絲團的 SNA 分析
• http://www.slideshare.net/jazzwang/ss-50602379
• 若要更好的獵才口袋名單,可做以下「質」的分析
• 找出曾經於粉絲團發文(post)、回文(comment)、按讚(like)的成員
• 使用以上資料建立成員與成員之間的關聯強度
解題思路
▷ 用 Selenium 將多個 Facebook 粉絲團的 member 列表匯出成以下格式:
○ “粉絲團名稱(group_name)”, “使用者代碼(user_id)”, “加入時間(join_time)”
▷ 使用 https://github.com/HadoopTW/communities-dashboard 的 Gephi 範
本繪製 Social Network Analytics 的圖表
○ https://gephi.org/
社群流動分析
▷ 將 member 列表的交集部分,比對「加入時間」,可以得知粉絲團成員
是從哪個社群移轉到另一個社群。
▷ 資料視覺化:考慮用 D3.js 的 Sankey Diagram 來呈現
○ https://d3js.org/
○ http://benlogan1981.github.io/VerticalSankey/UBS.html
44
以上分析用到的參考連結
## Part 2 : Hadoop.TW member Analytics
1. https://www.youtube.com/watch?v=49Mwqbu2cMo
2. https://github.com/mozilla/geckodriver/releases
45
結語
▷ 你(妳)具備以下人格特質嗎?
○ 充滿好奇心? - 對生活周遭遇到的問題會想要用數據探討
○ 善於觀察? - 反芻生活裡哪些服務能當作解決運題的資料源
○ 企劃執行力強? - 落實「蒐、存、取、析、用」到每個小研究
▷ 你(妳)具備以下的技術能力嗎?
○ Python / Shell Script
■ Data Science at the Command Line
https://www.datascienceatthecommandline.com/
○ Crawler - Ex. Selenium, Scrapy
○ Data Visualization - Ex. Tableau, Google Data Studio, D3.js
▷ 縮短學用落差 - 紓緩大數據專才的「斷層化」問題
○ 建議在校學生儘早透過「工讀 Intern」方式
去接觸資料科學與資料工程的「實務問題」
○ 很多實務問題並沒有辦法像 Kaggle 那樣將問題抽象化變成解題競賽
■ Ex. Streaming Data Input → 資料品質 Data Quality / Data Governance
→ 資料倉儲 Datawarehouse → 商業智慧 BI Report
46
47
台灣資料工程協會公開徵求會員
個人會員線上申請表單:
https://goo.gl/2z9BGK
Thanks!
Any questions?
You can find me at @jazzwang_tw or
https://fb.com/groups/dataengineering.tw
https://slideshare.net/jazzwang
48

More Related Content

What's hot

云计算技术与应用
云计算技术与应用云计算技术与应用
云计算技术与应用Yang Guanjun
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況Jazz Yao-Tsung Wang
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Etu Solution
 
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結James Chen
 
選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲Herman Wu
 
Azure Data Lake 簡介
Azure Data Lake 簡介Azure Data Lake 簡介
Azure Data Lake 簡介Herman Wu
 
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pubChao Zhu
 
艺龙旅行网架构案例分享-Qcon2011
艺龙旅行网架构案例分享-Qcon2011艺龙旅行网架构案例分享-Qcon2011
艺龙旅行网架构案例分享-Qcon2011Yiwei Ma
 
2006-11-16 RFID and OSS for Agriculture
2006-11-16 RFID and OSS for Agriculture2006-11-16 RFID and OSS for Agriculture
2006-11-16 RFID and OSS for AgricultureJazz Yao-Tsung Wang
 
Azure HDInsight 介紹
Azure HDInsight 介紹Azure HDInsight 介紹
Azure HDInsight 介紹Herman Wu
 
Big Data Technology - Cloud Computing
Big Data Technology - Cloud ComputingBig Data Technology - Cloud Computing
Big Data Technology - Cloud ComputingRen-Hao (PAN) Pan
 
王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计YANGL *
 
Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu Solution
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践hdhappy001
 
淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況Jazz Yao-Tsung Wang
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座NTC.im(Notch Training Center)
 
Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Etu Solution
 
AVA: The deep learning platform based on Alluxio in Qiniu AI Lab
AVA: The deep learning platform based on Alluxio in Qiniu AI LabAVA: The deep learning platform based on Alluxio in Qiniu AI Lab
AVA: The deep learning platform based on Alluxio in Qiniu AI LabAlluxio, Inc.
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里li luo
 

What's hot (20)

云计算技术与应用
云计算技术与应用云计算技术与应用
云计算技术与应用
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
 
Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結Hadoop 與 SQL 的甜蜜連結
Hadoop 與 SQL 的甜蜜連結
 
選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲選擇正確的Solution 來建置現代化的雲端資料倉儲
選擇正確的Solution 來建置現代化的雲端資料倉儲
 
Azure Data Lake 簡介
Azure Data Lake 簡介Azure Data Lake 簡介
Azure Data Lake 簡介
 
唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub唯品会大数据实践 Sacc pub
唯品会大数据实践 Sacc pub
 
艺龙旅行网架构案例分享-Qcon2011
艺龙旅行网架构案例分享-Qcon2011艺龙旅行网架构案例分享-Qcon2011
艺龙旅行网架构案例分享-Qcon2011
 
2006-11-16 RFID and OSS for Agriculture
2006-11-16 RFID and OSS for Agriculture2006-11-16 RFID and OSS for Agriculture
2006-11-16 RFID and OSS for Agriculture
 
Azure HDInsight 介紹
Azure HDInsight 介紹Azure HDInsight 介紹
Azure HDInsight 介紹
 
Big Data Technology - Cloud Computing
Big Data Technology - Cloud ComputingBig Data Technology - Cloud Computing
Big Data Technology - Cloud Computing
 
王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计王龙:百度数据库架构演变与设计
王龙:百度数据库架构演变与设计
 
Life of Big Data Technologies
Life of Big Data TechnologiesLife of Big Data Technologies
Life of Big Data Technologies
 
Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能Etu DW Offload 解放資料倉儲的運算效能
Etu DW Offload 解放資料倉儲的運算效能
 
翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践翟艳堂:腾讯大规模Hadoop集群实践
翟艳堂:腾讯大规模Hadoop集群实践
 
淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況淺談台灣巨量資料產業發展現況
淺談台灣巨量資料產業發展現況
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
 
Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來Trinity BDM - 橋接傳統與未來
Trinity BDM - 橋接傳統與未來
 
AVA: The deep learning platform based on Alluxio in Qiniu AI Lab
AVA: The deep learning platform based on Alluxio in Qiniu AI LabAVA: The deep learning platform based on Alluxio in Qiniu AI Lab
AVA: The deep learning platform based on Alluxio in Qiniu AI Lab
 
Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里Qcon2013 罗李 - hadoop在阿里
Qcon2013 罗李 - hadoop在阿里
 

Similar to Observe Changes of Taiwan Big Data Communities with Small Data (Updated)

BOT-Taipei Cloud Park
BOT-Taipei Cloud ParkBOT-Taipei Cloud Park
BOT-Taipei Cloud ParkWayne Liang
 
逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构Denodo
 
無限想像的科技創新未來—大數據專案管理與資料分析實務應用 20170927(龍華科技大學)
無限想像的科技創新未來—大數據專案管理與資料分析實務應用 20170927(龍華科技大學)無限想像的科技創新未來—大數據專案管理與資料分析實務應用 20170927(龍華科技大學)
無限想像的科技創新未來—大數據專案管理與資料分析實務應用 20170927(龍華科技大學)張大明 Ta-Ming Chang
 
Manufacturing on Cloud- Applications and Discussions; 製造在雲端- 漫談智慧雲在製造產業的應用
Manufacturing on Cloud- Applications and Discussions; 製造在雲端- 漫談智慧雲在製造產業的應用Manufacturing on Cloud- Applications and Discussions; 製造在雲端- 漫談智慧雲在製造產業的應用
Manufacturing on Cloud- Applications and Discussions; 製造在雲端- 漫談智慧雲在製造產業的應用Yun-Yao Chen
 
迎戰未來製造用AIoT打造企業第二條成長曲線
迎戰未來製造用AIoT打造企業第二條成長曲線迎戰未來製造用AIoT打造企業第二條成長曲線
迎戰未來製造用AIoT打造企業第二條成長曲線Amazon Web Services
 
海量計算的學習歷程分析與雲端資料庫管理系統Sqlmr appliance一體機開發計畫書 20140101
海量計算的學習歷程分析與雲端資料庫管理系統Sqlmr appliance一體機開發計畫書 20140101海量計算的學習歷程分析與雲端資料庫管理系統Sqlmr appliance一體機開發計畫書 20140101
海量計算的學習歷程分析與雲端資料庫管理系統Sqlmr appliance一體機開發計畫書 20140101Jackie Liu
 
386 涂家网 互联网家装设计、造价平台
386 涂家网 互联网家装设计、造价平台386 涂家网 互联网家装设计、造价平台
386 涂家网 互联网家装设计、造价平台Rui (Nash) Yang
 
網路行銷教案-壹、基本概念篇
網路行銷教案-壹、基本概念篇網路行銷教案-壹、基本概念篇
網路行銷教案-壹、基本概念篇p_yang
 
Se shang hai_04_cloudybi
Se shang hai_04_cloudybiSe shang hai_04_cloudybi
Se shang hai_04_cloudybiTech2IPO
 
Abcde計畫介紹
Abcde計畫介紹Abcde計畫介紹
Abcde計畫介紹Albertgts
 
How Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During CoronavirusHow Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During CoronavirusDenodo
 
資料科學的第一堂課 Data Science Orientation
資料科學的第一堂課 Data Science Orientation資料科學的第一堂課 Data Science Orientation
資料科學的第一堂課 Data Science OrientationRyan Chung
 
How to build a community in a company blue&macpaul coscup2015
How to build a community in a company blue&macpaul coscup2015How to build a community in a company blue&macpaul coscup2015
How to build a community in a company blue&macpaul coscup2015Macpaul Lin
 
附件二 20120808--系所介紹for指考入學新生
附件二 20120808--系所介紹for指考入學新生附件二 20120808--系所介紹for指考入學新生
附件二 20120808--系所介紹for指考入學新生風 陳
 
APDA百豆運動計劃2018工作事項與百豆機器人-20180209
APDA百豆運動計劃2018工作事項與百豆機器人-20180209APDA百豆運動計劃2018工作事項與百豆機器人-20180209
APDA百豆運動計劃2018工作事項與百豆機器人-20180209張大明 Ta-Ming Chang
 
附件二 20120808--系所介紹for指考入學新生
附件二 20120808--系所介紹for指考入學新生附件二 20120808--系所介紹for指考入學新生
附件二 20120808--系所介紹for指考入學新生5120dyuim
 
勞動力發展決策平台&區域人才資本競爭力行動架構
勞動力發展決策平台&區域人才資本競爭力行動架構勞動力發展決策平台&區域人才資本競爭力行動架構
勞動力發展決策平台&區域人才資本競爭力行動架構cpc2631
 
5 1行動服務20121103
5 1行動服務201211035 1行動服務20121103
5 1行動服務20121103cpc2631
 
借助数据虚拟化,实现数据网格架构
借助数据虚拟化,实现数据网格架构借助数据虚拟化,实现数据网格架构
借助数据虚拟化,实现数据网格架构Denodo
 

Similar to Observe Changes of Taiwan Big Data Communities with Small Data (Updated) (20)

BOT-Taipei Cloud Park
BOT-Taipei Cloud ParkBOT-Taipei Cloud Park
BOT-Taipei Cloud Park
 
逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构
 
無限想像的科技創新未來—大數據專案管理與資料分析實務應用 20170927(龍華科技大學)
無限想像的科技創新未來—大數據專案管理與資料分析實務應用 20170927(龍華科技大學)無限想像的科技創新未來—大數據專案管理與資料分析實務應用 20170927(龍華科技大學)
無限想像的科技創新未來—大數據專案管理與資料分析實務應用 20170927(龍華科技大學)
 
ABCDE計畫
ABCDE計畫ABCDE計畫
ABCDE計畫
 
Manufacturing on Cloud- Applications and Discussions; 製造在雲端- 漫談智慧雲在製造產業的應用
Manufacturing on Cloud- Applications and Discussions; 製造在雲端- 漫談智慧雲在製造產業的應用Manufacturing on Cloud- Applications and Discussions; 製造在雲端- 漫談智慧雲在製造產業的應用
Manufacturing on Cloud- Applications and Discussions; 製造在雲端- 漫談智慧雲在製造產業的應用
 
迎戰未來製造用AIoT打造企業第二條成長曲線
迎戰未來製造用AIoT打造企業第二條成長曲線迎戰未來製造用AIoT打造企業第二條成長曲線
迎戰未來製造用AIoT打造企業第二條成長曲線
 
海量計算的學習歷程分析與雲端資料庫管理系統Sqlmr appliance一體機開發計畫書 20140101
海量計算的學習歷程分析與雲端資料庫管理系統Sqlmr appliance一體機開發計畫書 20140101海量計算的學習歷程分析與雲端資料庫管理系統Sqlmr appliance一體機開發計畫書 20140101
海量計算的學習歷程分析與雲端資料庫管理系統Sqlmr appliance一體機開發計畫書 20140101
 
386 涂家网 互联网家装设计、造价平台
386 涂家网 互联网家装设计、造价平台386 涂家网 互联网家装设计、造价平台
386 涂家网 互联网家装设计、造价平台
 
網路行銷教案-壹、基本概念篇
網路行銷教案-壹、基本概念篇網路行銷教案-壹、基本概念篇
網路行銷教案-壹、基本概念篇
 
Se shang hai_04_cloudybi
Se shang hai_04_cloudybiSe shang hai_04_cloudybi
Se shang hai_04_cloudybi
 
Abcde計畫介紹
Abcde計畫介紹Abcde計畫介紹
Abcde計畫介紹
 
How Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During CoronavirusHow Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
How Enterprises Leverage Data to Overcome Business Challenges During Coronavirus
 
資料科學的第一堂課 Data Science Orientation
資料科學的第一堂課 Data Science Orientation資料科學的第一堂課 Data Science Orientation
資料科學的第一堂課 Data Science Orientation
 
How to build a community in a company blue&macpaul coscup2015
How to build a community in a company blue&macpaul coscup2015How to build a community in a company blue&macpaul coscup2015
How to build a community in a company blue&macpaul coscup2015
 
附件二 20120808--系所介紹for指考入學新生
附件二 20120808--系所介紹for指考入學新生附件二 20120808--系所介紹for指考入學新生
附件二 20120808--系所介紹for指考入學新生
 
APDA百豆運動計劃2018工作事項與百豆機器人-20180209
APDA百豆運動計劃2018工作事項與百豆機器人-20180209APDA百豆運動計劃2018工作事項與百豆機器人-20180209
APDA百豆運動計劃2018工作事項與百豆機器人-20180209
 
附件二 20120808--系所介紹for指考入學新生
附件二 20120808--系所介紹for指考入學新生附件二 20120808--系所介紹for指考入學新生
附件二 20120808--系所介紹for指考入學新生
 
勞動力發展決策平台&區域人才資本競爭力行動架構
勞動力發展決策平台&區域人才資本競爭力行動架構勞動力發展決策平台&區域人才資本競爭力行動架構
勞動力發展決策平台&區域人才資本競爭力行動架構
 
5 1行動服務20121103
5 1行動服務201211035 1行動服務20121103
5 1行動服務20121103
 
借助数据虚拟化,实现数据网格架构
借助数据虚拟化,实现数据网格架构借助数据虚拟化,实现数据网格架构
借助数据虚拟化,实现数据网格架构
 

Observe Changes of Taiwan Big Data Communities with Small Data (Updated)

  • 1. 時間:2019-02-23 (六) 14:00~15:20 地點:台北市復興北路 99 號 2 樓 201 教室 (犇亞會議中心 201 教室) 講者:王耀聰 臺灣資料工程協會 發起人 暨 第一屆理事長 Initiator and Chair, TDEA 前騰學廣告科技 資料架構師 Data Architect, TenMax 前知意圖股份有限公司 產品協理 AVP, Product Management, Etu 前國網中心副研究員 Associate Researcher, NCHC 用小數據看台灣大數據生態系的社群流轉 Observe Changes of Taiwan Big Data Communities with Small Data 本分享將透過實際展示,說明如何善用小數據加上敘述統計的方式,採用 2013 年至 2019 年的 Indeed 職缺列表,來分析探討臺灣產業面對「數位轉 型」所需要的大數據專才需求變化趨勢。 其次,也將分享如何透過爬蟲技巧,蒐集多個臉書粉絲團的成員名單,進而 分析不同技術社群的成員重疊性,若準備時間許可的話,會再做進一步的跨 社群流動趨勢分析。
  • 2. My Journey of “Innovation” ( aka “From Zero to One” ) 用小數據看 台灣大數據生態系的 社群流轉 Observe Changes of Taiwan Big Data Communities with Small Data 王耀聰 Jazz Yao-Tsung Wang 臺灣資料工程協會 發起人 暨 第一屆理事長 Initiator and Chair, TDEA Shared at 2019-02-23 < 臺灣資料工程協會 2019 Q1 技術工作坊暨年度會員大會 >
  • 3. Hello! I am Jazz Wang Co-Founder of Hadoop.TW Initiator and Chair of Taiwan Data Engineering Association (TDEA) Hadoop Evangelist since 2008. Open Source Promoter. System Admin (Ops). - 11 years (2002/08 ~ 2014/02) Associate Researcher in HPC field. - 2 years (2014/03 ~ 2016/04) Assistant Vice President (AVP), Product Management of ‘Big Data Platform Management’ - 2 years (2016/04 ~ 2018/06) Data Architect of Real-Time Bidding You can find me at @jazzwang_tw or https://fb.com/groups/dataengineering.tw https://slideshare.net/jazzwang 3
  • 4. 4 Hadoop 滿 13 歲~在台灣也推滿 11 年~ 2006 年 2 月 2008 年 4 月 ~$ whois hadoop.tw Domain Name: hadoop.tw Record created on 2008-04-28 (YYYY-MM-DD)
  • 5. 5 資工資科新解~人格特質與商業模式迥異 - Data Engineer – Vendor Site – 基礎建設 – 銷售週期長 – 仰賴雄厚的資本 - Data Scientist – User Site – 領域知識 – 銷售週期短 – 仰賴創新與想像力 資料工程 產品銷售週期長,業主不願意投資 喜歡解決不同客戶問題、懂得廣但不專 資料科學 產品銷售週期短,需領域知識 擅長找因果關聯,想像力強
  • 7. 7 假設你是一個資料科學家,好奇一個問題: 『如何呈現過去五年台灣對於 資料科學/資料工程技能的 產業需求變化?』 思路: Q1 - 我去哪裡找能呈現這個趨勢的資料? - 內部資料? 外部資料? 問卷? 樣本數要多少才夠? 取樣象徵性? Q2 - 該選擇哪些維度(Dimensions)跟量測值(Measures) - 時間維度? 徵才職缺數量? 需去除多久時間區間內同一個職缺數量嗎? - 公司名稱? 職缺抬頭? 需要關切同一個職缺在不同時間的出現週期嗎?
  • 8. 8 需求:台灣 Hadoop 近六年的職缺需求成長趨勢 • 資料來源:訂閱 Indeed 通知,台灣出現 Hadoop 的職缺 • 時間範圍: • 2013/02/07~2019/02/22 http://www.indeed.com/jobtrends/q-Hadoop.html http://tw.indeed.com/jobs?q=Hadoop&l=Taiwan
  • 9. 9 Indeed 小檔案 • 使用爬蟲收集不同公開職缺與人力銀行的「跨站搜尋」服務 • 離題一下 — 關於「跨站搜尋」的小故事: • 1998 年我修吳毅成老師「網路程式設計」課程的第二個作業 :) • PS. 我是交大電控八九級大學/碩士,雖然最後這門課被當掉了~ ( 人生心得分享 ) • 我從大三用 Unix, 研一用 Linux 研二把實驗室 DOS 版 AI/DO 程式改成 Linux 版 … https://plus.nctu.edu.tw/courses/22241
  • 10. 10 台灣 Hadoop 職缺的敘述統計結果 • 總信件量:1,483 則 ( 將 Gmail 匯出成 mbox 格式,再用 Python 分析) • 總徵才量:7,256 個職缺 • 總徵才公司量:538 間 ( 尚未去除同義詞) show-mbox$ cat job_company.txt | awk -F';' '{ print $2 }' | sort -n | uniq | nl |tail -2 537 17 Media 538 21世紀人力資源管理顧問有限公司
  • 12. 由於我不喜歡把 Binary File 送進 Git Repo 會再找其他地方放 Indeed.mbox 方便想做後續分析的人使用 原始資料產出的 CSV 已送進 Git Repo 分析 mbox 的 Python 程式碼 12https://github.com/jazzwang/show-mbox 覺得有參考價值幫我按個星星吧 ☺
  • 13. 資料工程的重要性:資料清洗 (1) 這次演講花了 80% 以上的時間在整理資料 13 Job Company 部分: 1. 發現 2016-11-17 以後,E-mail 中的 HTML 特徵有變化。 2. 2016-11-17 以後的 CSS 有槽狀結構同時包括 class=“sg-paragraph-large” 顯示公司 class=“sg-paragraph-large db” 顯示地理位置 要設法濾除不同的 case 3. 2016-11-17 以後的 HTML Tag 有 “n” 與 “空白” 字元 4. 2018-10-19 以後的 CSS 有槽狀結構同時包括 class=“job-company-name” 顯示公司
  • 14. 資料工程的重要性:資料清洗 (2) 這次演講花了 80% 以上的時間在整理資料 14 Job Location 部分: 1. 發現 2016-11-17 以後,E-mail 中的 HTML 特徵有變化。 2. 2016-11-17 以後的 CSS 有槽狀結構,採用 class=“sg-paragraph-large db” 顯示地理位置 3. 2018-10-19 以後的 CSS 有槽狀結構,採用 class=“job-company-location” 顯示地理位置 4. 2016-11-17 以後的 HTML Tag 有 “n” 與 “空白” 字元 5. 2016-11-17 以後的 HTML Tag 會出現減號 ( - ) 在地名前
  • 15. 資料工程的重要性:資料清洗 (3) 這次演講花了 80% 以上的時間在整理資料 15 Job Title 部分: 1. 發現 2016-11-17 以後,E-mail 中的 HTML 特徵有變化。 2. 2016-11-17 以後的 HTML Tag 混了 ‘ “> ‘ 的額外字串 3. 2016-11-17 以後的 HTML Tag 有 “n” 與 “空白” 字元
  • 16. 結果呈現:採用 Tableau 做資料視覺化 16 數字意義: 內含 Hadoop 關鍵字的職缺出現在 E-mail 通知裡的「次數」 PS. 未考慮該職缺的 URL 連結是否相同(可能是同一個職缺) 數字解讀: 2017 年 11 月出現高於 2016 年 11 月的歷史高峰~ 2018 年持續非常強勁的 Hadoop 職缺需求量!! 2019 年回穩,但仍高於 2017 前的水位~
  • 17. 17 合併計算的敘述統計結果: 199 2013 05~12 508 2014 01~12 864 2015 01~12 765 2016 01~12 1177 2017 01~12 3540 2018 01~12 203 2019 01~02 show-mbox$ cat hadoop_jobs.csv | awk -F'-' '{ print $1 }' | sort -n | uniq –c
  • 18. 18 合併計算的敘述 統計結果: 757 01 月 593 02 月 693 03 月 675 04 月 671 05 月 570 06 月 475 07 月 486 08 月 496 09 月 486 10 月 585 11 月 769 12 月 show-mbox$ cat hadoop_jobs.csv | awk -F'-' '{ print $2 }' | sort -n | uniq -c
  • 19. 19 排除 2013 與 2019 兩個不完整的年度 558 12 月 412 11 月 279 01 月 271 10 月 252 08 月 249 09 月 247 03 月 227 05 月 223 07 月 213 04 月 200 02 月 183 06 月 show-mbox$ cat hadoop_jobs.csv | grep -v "^2013" | grep -v "^2019" | awk -F'-' '{ print $2 }' | sort -n | uniq -c | sort -n
  • 20. 276 敦陽科技股份有限公司 268 Lumentum Operations LLC 201 經緯智庫股份有限公司(MGR) 160 遠傳電信股份有限公司 146 台灣新蛋股份有限公司 142 Micron 130 緯創軟體股份有限公司 130 瑞星管理顧問股份有限公司 112 凌群電腦股份有限公司 107 台灣積體電路製造股份有限公司 96 Google 91 願境網訊股份有限公司 = KKBOX 90 台灣積體電路製造股份有限公司(台積電) 89 玉山銀行 88 財團法人工業技術研究院 線上版:https://public.tableau.com/profile/jazz.wang#!/vizhome/Hadoop_Job_Taiwan_2019-02/Dashboard1 20 獵 人 頭 高科技製造業的需求 2018 年變得很強勁 show-mbox$ cat hadoop_jobs.csv | awk -F';' '{ print $2 }' | sort -n | uniq -c | sort -nr | head -15 197
  • 21. 線上版:https://public.tableau.com/profile/jazz.wang#!/vizhome/Hadoop_Job_Taiwan_2019-02/Dashboard1 線上版:https://public.tableau.com/profile/jazz.wang#!/vizhome/Hadoop_Job_Taiwan_2018-06/Dashboard1 21 268 Lumentum Operations LLC 187 敦陽科技股份有限公司 146 台灣新蛋股份有限公司 114 Google 107 台灣積體電路製造股份有限公司 106 經緯智庫股份有限公司(MGR) 93 凌群電腦股份有限公司 92 瑞星管理顧問股份有限公司 91 願境網訊股份有限公司 = KKBOX 90 台灣積體電路製造股份有限公司(台積電) 89 玉山銀行 88 財團法人工業技術研究院 73 中國信託金融控股股份有限公司(中國信託) 72 緯創軟體股份有限公司 72 中華電信股份有限公司 197 show-mbox$ cat hadoop_jobs.csv | awk -F';' '{ print $2 }' | sort -n | uniq -c | sort -nr | head -15 對比 2018 年 6 月的分析結果 276 敦陽科技股份有限公司 268 Lumentum Operations LLC 201 經緯智庫股份有限公司(MGR) 160 遠傳電信股份有限公司 146 台灣新蛋股份有限公司 142 Micron 130 緯創軟體股份有限公司 130 瑞星管理顧問股份有限公司 112 凌群電腦股份有限公司 107 台灣積體電路製造股份有限公司 96 Google 91 願境網訊股份有限公司 = KKBOX 90 台灣積體電路製造股份有限公司(台積電) 89 玉山銀行 88 財團法人工業技術研究院 197 1. Lumentum Operations LLC 在 2018 年 6 月衝到第一名,之後再也沒在增加新的職缺 2. 敦陽科技有持續在找人,2018-06 到 2019-02 共增加了 89 個職缺 3. 遠傳電信突然在 2019 年 2 月衝到第四名 4. 美光 Micron 也是突然在 2019 年 2 月衝到第六名
  • 22. 對比 2016 年 12 月的分析結果 22
  • 23. 23 合併計算的敘述統計結果: 4573 台北市 575 新北市 505 桃園市 391 台中市 345 新竹市 171 高雄市 169 台南市 168 新竹縣 146 台灣 102 苗栗縣 56 桃園縣 18 南投縣 12 新竹科學工業園區 12 屏東縣 5 花蓮縣 4 中部科學工業園區 2 宜蘭縣 1 雲林縣 1 彰化縣
  • 24. 24 合併計算的敘述統計結果: 3380 台北市 478 新北市 428 桃園市 315 新竹市 306 台中市 161 高雄市 148 新竹縣 130 台南市 110 台灣 87 苗栗縣 56 桃園縣 18 南投縣 12 屏東縣 5 花蓮縣 4 新竹科學工業園區 4 中部科學工業園區 2 彰化縣 2 宜蘭縣 1 雲林縣 合併計算的敘述統計結果: 4573 台北市 575 新北市 505 桃園市 391 台中市 345 新竹市 171 高雄市 169 台南市 168 新竹縣 146 台灣 102 苗栗縣 56 桃園縣 18 南投縣 12 新竹科學工業園區 12 屏東縣 5 花蓮縣 4 中部科學工業園區 2 宜蘭縣 1 雲林縣 1 彰化縣 2019-02-22 2018-06-11 對比 2018 年 6 月的分析結果
  • 25. 更多未竟分析 ▷ 單獨看 Top 15 廠商的時間分佈 ○ 看台灣不同產業的需求變化 ■ 電信 → 電商 → 金融 / 新零售 → 廣告 → 製造 → 醫療(?) ▷ 單獨看 Top 15 廠商的職缺名稱分佈 ○ 同一個 Job Title 是否存在相同 URL ? ○ 同一個 Job Title 且具有不同 URL, 分佈在不同時間點,間隔週期有多長? → 猜測「離職/異動率」 25
  • 26. 作業?你也能裝 Tableau Public 版,來製作自己的分析報告 ▷ Mac OS 開發者: brew cask install tableau-public 26 線上版:https://public.tableau.com/profile/jazz.wang#!/vizhome/Hadoop_Job_Taiwan_2019-02/Dashboard1 線上版:https://public.tableau.com/profile/jazz.wang#!/vizhome/Hadoop_Job_Taiwan_2018-06/Dashboard1
  • 27. 當然你也可以用 Google Data Studio 27 https://datastudio.google.com
  • 28. 為完成以上分析用到的參考連結 ## Part 1 : Indeed Job Analytics 1. http://blog.chunnorris.cc/2015/04/python-2x-unicode.html 2. https://stackoverflow.com/questions/3806874/how-to-merge-two-files- line-by-line-in-bash 3. https://stackoverflow.com/questions/466345/converting-string-into- datetime 4. https://stackoverflow.com/questions/19351541/excluding-unwanted- results-of-findall-using-beautifulsoup 5. https://pythonadventures.wordpress.com/2010/10/11/chomp- functionality-in-python/ 6. https://www.cnblogs.com/pylemon/archive/2011/05/18/2050179.html 28
  • 29. 29 假設你是一個資料科學家,好奇一個問題: 『如何呈現過去五年台灣擁有 資料科學/資料工程技能的 人力供給變化?』 思路: Q1 - 我去哪裡找能呈現這個趨勢的資料? - 內部資料? 外部資料? 問卷? 樣本數要多少才夠? 取樣象徵性? Q2 - 該選擇哪些維度(Dimensions)跟量測值(Measures) - 時間維度? 人才履歷數量?
  • 31. 31 台灣具國際認證的 Hadoop 生態系專才分析 • 需求:找出台灣通過 Cloudera (CCDH/CCAH) 認證的人數 • 資料來源:通過認證者會被加入一個 LinkedIn 隱藏群組 • 取得方法: • 2015-05-12 起,LinkedIn 將開發者的 API 權限做了大幅度限縮 • 目前只能透過 LinkedIn 的搜尋介面才能取得名單 • 查詢結果: • 目前台灣只有 62 位 Cloudera 認證登錄於 LinkedIn 上
  • 32. 32 LinkedIn Advanced People Search • 全美有 3837 位認證專才 • Cloudera (119),Apple ( 79) Cognizant (68),eBay (55) Hortonworks (47) • 產業別 • IT、軟體、網路、金融服務與國防太空
  • 33. 33 Hadoop 應用已跨多產業,但台灣數位空洞令人憂心 • 需求方:台灣產業導入 Hadoop 生態系的大略順序 • 電信 (2012) → 電商/零售/遊戲/內容 → 金融/製造/廣告 (2015) • 供給方:從獨立新創,漸回歸系統整合(SI)商與代理商
  • 34. { 趨勢三 } 大數據技術專才走向 「斷層化」 34 技 人 解讀雲端大數據新趨勢 Big Data Stack on The Cloud Shared at 2018-05-16 < iThome Cloud Summit 2018 >
  • 38. 我本來想用 Facebook Graph API 來更新 2019 年的現況數據 38 https://github.com/HadoopTW/communities-dashboard 事隔三年,Facebook Graph API 也從 2.10 版 進到 3.0 版。 很多權限設定跟可以 取得資料的方式 都有所改變 礙於個人準備時間有限 只好考慮「方法二」 備案: Selenium
  • 39. Graph API 已經於 2018-04-04 取消查詢粉絲團會員名單的支援 https://developers.facebook.com/docs/graph-api/reference/v3.2/group/members
  • 40. 40 Hadoop.TW 臉書粉絲團 • 資料來源:粉絲團會員列表 • Hadoop.TW 臉書粉絲團共有 5,534 名成員(@2018-06-13) • Facebook Graph API 並沒有提供加入粉絲團的日期欄位 • 只好靠 HTML 的內容去解析加入日期、工作地點與學校 加入時間 學校 任職公司 2018-06-13 的 粉絲團成員列表
  • 41. 41 Hadoop.TW / Spark.TW 臉書粉絲團 • 資料來源:粉絲團會員列表 • Hadoop.TW 臉書粉絲團共有 5,589 名成員(@2019-02-23) • Spark.TW 臉書粉絲團共有 2,571 名成員(@2019-02-23) 2019-02-23 的 粉絲團成員列表 (FB界面又換了) 在寫不同粉絲團 的爬蟲時才驚覺 有沒有管理者的 身份也有不同的 Layout
  • 42. Selenium Python Sample Code 42 https://github.com/HadoopTW/communities-dashboard/tree/master/fb_members_selenium 1. HadoopTWFBMembers.py 是有管理者權限的參考版本 2. Spark.tw-fb-members.py 是一般粉絲團會員的參考版本
  • 43. 43 Hadoop.TW 臉書粉絲團「量」的分析 • 2013 年也曾分享過跨不同臉書粉絲團的 SNA 分析 • http://www.slideshare.net/jazzwang/ss-50602379 • 若要更好的獵才口袋名單,可做以下「質」的分析 • 找出曾經於粉絲團發文(post)、回文(comment)、按讚(like)的成員 • 使用以上資料建立成員與成員之間的關聯強度
  • 44. 解題思路 ▷ 用 Selenium 將多個 Facebook 粉絲團的 member 列表匯出成以下格式: ○ “粉絲團名稱(group_name)”, “使用者代碼(user_id)”, “加入時間(join_time)” ▷ 使用 https://github.com/HadoopTW/communities-dashboard 的 Gephi 範 本繪製 Social Network Analytics 的圖表 ○ https://gephi.org/ 社群流動分析 ▷ 將 member 列表的交集部分,比對「加入時間」,可以得知粉絲團成員 是從哪個社群移轉到另一個社群。 ▷ 資料視覺化:考慮用 D3.js 的 Sankey Diagram 來呈現 ○ https://d3js.org/ ○ http://benlogan1981.github.io/VerticalSankey/UBS.html 44
  • 45. 以上分析用到的參考連結 ## Part 2 : Hadoop.TW member Analytics 1. https://www.youtube.com/watch?v=49Mwqbu2cMo 2. https://github.com/mozilla/geckodriver/releases 45
  • 46. 結語 ▷ 你(妳)具備以下人格特質嗎? ○ 充滿好奇心? - 對生活周遭遇到的問題會想要用數據探討 ○ 善於觀察? - 反芻生活裡哪些服務能當作解決運題的資料源 ○ 企劃執行力強? - 落實「蒐、存、取、析、用」到每個小研究 ▷ 你(妳)具備以下的技術能力嗎? ○ Python / Shell Script ■ Data Science at the Command Line https://www.datascienceatthecommandline.com/ ○ Crawler - Ex. Selenium, Scrapy ○ Data Visualization - Ex. Tableau, Google Data Studio, D3.js ▷ 縮短學用落差 - 紓緩大數據專才的「斷層化」問題 ○ 建議在校學生儘早透過「工讀 Intern」方式 去接觸資料科學與資料工程的「實務問題」 ○ 很多實務問題並沒有辦法像 Kaggle 那樣將問題抽象化變成解題競賽 ■ Ex. Streaming Data Input → 資料品質 Data Quality / Data Governance → 資料倉儲 Datawarehouse → 商業智慧 BI Report 46
  • 48. Thanks! Any questions? You can find me at @jazzwang_tw or https://fb.com/groups/dataengineering.tw https://slideshare.net/jazzwang 48