微軟專業學程 - 資料科學
資策會大專院校「未來之星 – 菁英培育」計畫
Ryan	Chung III	IT	Training	Center
1
Ryan@iii.org.tw
元智資工
台科大
資工所
資策會
工程師
自由軟體
推廣計畫
網站開發
線上學習
資策會
講師
行動開發
學院
資策會
課程經理
資料科學
人工智慧
2
資策會 IT Training Center
² 最新科技進修
Ø 在職夜間假日進修
Ø 轉職全天養成班
² 資訊技術充電站
Ø 國際技術趨勢
Ø 職場必備能力
Ø 基本資訊技能
http://taipei.iiiedu.org.tw/
3
未來之星 – 菁英培育計畫
• 台灣大學
• 中山大學
• 中央大學
• 元智大學
• 金門大學
• 東華大學
• 暨南大學
• 長榮大學
• 逢甲大學
• 。。。 http://elite.iiiedu.org.tw/
4
如何加入學習的行列?
1. 在「資策會線上學習網」上選修課程
2. 參加「未來之星菁英培育」校園巡迴講座
3. 上FB社團版「大學生的資訊充電站」討論
https://www.facebook.com/groups/846979765403349/
openedx.iiiedu.org.tw
5
Microsoft Professional Program
6
Microsoft Professional Program
Data	Science
• T-SQL
• Excel
• Power	BI
• Python
• R
• Azure	Machine	Learning
• HDInsight
• Spark
Big	Data
• Azure	Data	Lake
• Hadoop
• HDInsight
• Spark
• Azure	Data	Factory
• Azure	Stream	Analytics
Front-end	Web	
Development
• HTML
• CSS
• JavaScript
• Angular
• jQuery
• DevOps
https://academy.microsoft.com
7
資料科學 -> 大數據 -> 人工智慧
1.依工作專業需求規劃
2.搭配 Hands-on lab 和實務專題
3.完成課程可加購數位認證(非必要)
4.擁抱開源,適用於不同平台的資料科學技能
https://technews.tw/2017/09/04/microsoft-tmu-ai-plan/
8
IT 技術集大成
網站開發 APP開發
語音助理
Chatbot
資料科學 巨量資料 智慧系統
AI
人工
智慧
9
推廣策略
• 未來之星-菁英培育計畫校園講座 elite.iiiedu.org.tw
大專在校學生
• 線上開放式課程 openedx.iiiedu.org.tw
一般社會大眾
• 國際菁英俱樂部-資料科學家 mobiledev.tw/dma777
在職人士進修
• AI Engineer 應用開發就業養成班 taipei.iiiedu.org.tw/training/aien.html
求職人士轉業
10
微軟x資策會 資料科學認證課程
11
https://www.bnext.com.tw/article/44337/microsoft-team-up-with-iii-to-cultivate-data-scientist-in-taiwan
TVBS 報導
12
微軟專業學程 - 資料科學
http://taipei.iiiedu.org.tw/mpp-ds/
13
PROGRAMMING	
WITH	PYTHON	
FOR	DATA	
SCIENCE
PROGRAMMING	
WITH	R	FOR	DATA	
SCIENCE
APPLIED	MACHINE	
LEARNING
DEVELOPING	INTELLIGENT	
APPLICATIONS	AND	BOTS
IMPLEMENTING	PREDICTIVE	
SOLUTIONS	WITH	SPARK	IN	
HDINSIGHT
CORE DATA
SCIENCE
資料科學核心
FUNDAMENTALS
基礎課程
APPLIED
DATA SCIENCE
應用資料科學
ANALYZING	&	
VISUALIZING	
DATA	WITH	
POWER	BI
QUERYING	DATA	
WITH	TRANSACT-
SQL
DATA	SCIENCE	
ORIENTATION
ANALYZING	AND	
VISUALIZING	DATA	
WITH	EXCEL
PRINCIPLES	OF	
MACHINE	
LEARNING
Essential	Statistics	
for	Data	Analysis	
using	Excel
INTRODUCTION	
TO	R	FOR	DATA	
SCIENCE
INTRODUCTION	
TO	PYTHON	FOR	
DATA	SCIENCE
DATA	SCIENCE	
ESSENTIALS
CORTANA	
COMPETITION
PROJECT
專案
Microsoft Professional Program
FUNDAMENTALS CORE	DATA	SCIENCE APPLIED	DATA	SCIENCE
MOC
20-761:	Querying
Data	with	
Transact-SQL
Course	10989A:	
Analyzing	Data	with
Power	BI
EXAM
70-761:	Querying
Data	with	Transact-
SQL
70-778: Analyzing	
Data	with	Power	BI
70-773:	
Analyzing	Big	Data	
with	Microsoft	R
70-779:	
Analyzing	Data	
with	Excel
OPENEDX
ANALYZING	BIG	DATA	
WITH	MICROSOFT	R	
SERVER
DATA SCIENCE
CHALLENGE
14
PROGRAMMING	
WITH	PYTHON	
FOR	DATA	
SCIENCE
PROGRAMMING	
WITH	R	FOR	DATA	
SCIENCE
APPLIED	MACHINE	
LEARNING
DEVELOPING	INTELLIGENT	
APPLICATIONS	AND	BOTS
IMPLEMENTING	PREDICTIVE	
SOLUTIONS	WITH	SPARK	IN	
HDINSIGHT
CORE DATA
SCIENCE
資料科學核心
FUNDAMENTALS
基礎課程
APPLIED
DATA SCIENCE
應用資料科學
ANALYZING	&	
VISUALIZING	
DATA	WITH	
POWER	BI
QUERYING	DATA	
WITH	TRANSACT-
SQL
DATA	SCIENCE	
ORIENTATION
ANALYZING	AND	
VISUALIZING	DATA	
WITH	EXCEL
PRINCIPLES	OF	
MACHINE	
LEARNING
Essential	Statistics	
for	Data	Analysis	
using	Excel
INTRODUCTION	
TO	R	FOR	DATA	
SCIENCE
INTRODUCTION	
TO	PYTHON	FOR	
DATA	SCIENCE
DATA	SCIENCE	
ESSENTIALS
CORTANA	
COMPETITION
PROJECT
專案
Microsoft Professional Program
ANALYZING	BIG	DATA	
WITH	MICROSOFT	R	
SERVER
DATA SCIENCE
CHALLENGE
名稱
Data Science Orientation
資料科學導論
時數 每週 2 ~ 4 小時、共 6 週
目標
了解資料科學的範疇,如何透過分析、視
覺化工具、統計學等知識與工具,揭露資
料背後的秘密。
15
模組
• 課程簡介
• Module1:修課說明以及資料科學家訪談
• Module2:資料分析導論
• Module3:統計學簡介
• Lab:使用Excel探索資料
16
專家認為應具備的能力
• 統計學、數學
• 程式語言
–R、Python
• 視覺化工具呈現與講解能力
–Power BI, Tableau, Qlik, Excel
• 建模技術、彙整工具
–Azure machine learning, Spark
17
1.了解問題
Ø 探究領域知識
2.了解資料
Ø 向資料提供者發問
Ø 仔細觀察資料
Ø 保持好奇心與熱情
3.採用適當的方法解決問題
Ø 學習+經驗+嘗試
資料科學家研究過程
18
Working with Data in Excel
l 匯入資料方式
Ø 文字檔
Ø 資料庫
Ø …
l 資料欄位型別確認
Ø 標頭
Ø 屬性
Ø 分隔
l 新增欄位(Sales、Weekday、Revenue)
l 資料整理
Ø 刪除重覆資料
Ø 缺失值
19
Exploring Data in Excel
l 設定格式化的條件
Ø 資料橫條(Data Bars)
Ø 色階(Color Scale)
Ø 圖示(Icon Set)
Ø 頂端底端規則(Top10、Button10)
l 插入圖表
Ø 折線圖(High/Low Points)
Ø 直條圖
20
PROGRAMMING	
WITH	PYTHON	
FOR	DATA	
SCIENCE
PROGRAMMING	
WITH	R	FOR	DATA	
SCIENCE
APPLIED	MACHINE	
LEARNING
DEVELOPING	INTELLIGENT	
APPLICATIONS	AND	BOTS
IMPLEMENTING	PREDICTIVE	
SOLUTIONS	WITH	SPARK	IN	
HDINSIGHT
CORE DATA
SCIENCE
資料科學核心
FUNDAMENTALS
基礎課程
APPLIED
DATA SCIENCE
應用資料科學
ANALYZING	&	
VISUALIZING	
DATA	WITH	
POWER	BI
QUERYING	DATA	
WITH	TRANSACT-
SQL
DATA	SCIENCE	
ORIENTATION
ANALYZING	AND	
VISUALIZING	DATA	
WITH	EXCEL
PRINCIPLES	OF	
MACHINE	
LEARNING
Essential	Statistics	
for	Data	Analysis	
using	Excel
INTRODUCTION	
TO	R	FOR	DATA	
SCIENCE
INTRODUCTION	
TO	PYTHON	FOR	
DATA	SCIENCE
DATA	SCIENCE	
ESSENTIALS
CORTANA	
COMPETITION
PROJECT
專案
Microsoft Professional Program
ANALYZING	BIG	DATA	
WITH	MICROSOFT	R	
SERVER
DATA SCIENCE
CHALLENGE
名稱
Querying with Transact-SQL
資料庫概論 – 使用 T-SQL
時數 每週 4 ~ 5 小時、共 6 週
目標
了解資料庫的語法,從第一個SELECT指令
開始學起,到能實作常見的資料庫操作邏
輯在MS SQL Server或Azure SQL 資料庫
21
PROGRAMMING	
WITH	PYTHON	
FOR	DATA	
SCIENCE
PROGRAMMING	
WITH	R	FOR	DATA	
SCIENCE
APPLIED	MACHINE	
LEARNING
DEVELOPING	INTELLIGENT	
APPLICATIONS	AND	BOTS
IMPLEMENTING	PREDICTIVE	
SOLUTIONS	WITH	SPARK	IN	
HDINSIGHT
CORE DATA
SCIENCE
資料科學核心
FUNDAMENTALS
基礎課程
APPLIED
DATA SCIENCE
應用資料科學
ANALYZING	&	
VISUALIZING	
DATA	WITH	
POWER	BI
QUERYING	DATA	
WITH	TRANSACT-
SQL
DATA	SCIENCE	
ORIENTATION
ANALYZING	AND	
VISUALIZING	DATA	
WITH	EXCEL
PRINCIPLES	OF	
MACHINE	
LEARNING
Essential	Statistics	
for	Data	Analysis	
using	Excel
INTRODUCTION	
TO	R	FOR	DATA	
SCIENCE
INTRODUCTION	
TO	PYTHON	FOR	
DATA	SCIENCE
DATA	SCIENCE	
ESSENTIALS
CORTANA	
COMPETITION
PROJECT
專案
Microsoft Professional Program
ANALYZING	BIG	DATA	
WITH	MICROSOFT	R	
SERVER
DATA SCIENCE
CHALLENGE
名稱
Analyzing and Visualizing Data with Excel
資料分析與視覺化 – 使用 Excel
時數 每週 2 ~ 4 小時、共 6 週
目標
使用Excel來分析前所未有的大量資料,運
用更好的視覺化方式與穩健的商業邏輯,
並知道如何從各種來源進行資料匯入。
22
Excel 2016
23
Excel 2016 各平台比較
24
PROGRAMMING	
WITH	PYTHON	
FOR	DATA	
SCIENCE
PROGRAMMING	
WITH	R	FOR	DATA	
SCIENCE
APPLIED	MACHINE	
LEARNING
DEVELOPING	INTELLIGENT	
APPLICATIONS	AND	BOTS
IMPLEMENTING	PREDICTIVE	
SOLUTIONS	WITH	SPARK	IN	
HDINSIGHT
CORE DATA
SCIENCE
資料科學核心
FUNDAMENTALS
基礎課程
APPLIED
DATA SCIENCE
應用資料科學
ANALYZING	&	
VISUALIZING	
DATA	WITH	
POWER	BI
QUERYING	DATA	
WITH	TRANSACT-
SQL
DATA	SCIENCE	
ORIENTATION
ANALYZING	AND	
VISUALIZING	DATA	
WITH	EXCEL
PRINCIPLES	OF	
MACHINE	
LEARNING
Essential	Statistics	
for	Data	Analysis	
using	Excel
INTRODUCTION	
TO	R	FOR	DATA	
SCIENCE
INTRODUCTION	
TO	PYTHON	FOR	
DATA	SCIENCE
DATA	SCIENCE	
ESSENTIALS
CORTANA	
COMPETITION
PROJECT
專案
Microsoft Professional Program
ANALYZING	BIG	DATA	
WITH	MICROSOFT	R	
SERVER
DATA SCIENCE
CHALLENGE
名稱
Analyzing and Visualizing Data with Power BI
資料分析與視覺化 – 使用 Power BI
時數 每週 2 ~ 4 小時、共 6 週
目標
學習如何透過Power BI將你的資料視覺化,
了解如何匯入資料,並能發佈報告以及如
何建立跨平台均可使用的Dashboard
25
PROGRAMMING	
WITH	PYTHON	
FOR	DATA	
SCIENCE
PROGRAMMING	
WITH	R	FOR	DATA	
SCIENCE
APPLIED	MACHINE	
LEARNING
DEVELOPING	INTELLIGENT	
APPLICATIONS	AND	BOTS
IMPLEMENTING	PREDICTIVE	
SOLUTIONS	WITH	SPARK	IN	
HDINSIGHT
CORE DATA
SCIENCE
資料科學核心
FUNDAMENTALS
基礎課程
APPLIED
DATA SCIENCE
應用資料科學
ANALYZING	&	
VISUALIZING	
DATA	WITH	
POWER	BI
QUERYING	DATA	
WITH	TRANSACT-
SQL
DATA	SCIENCE	
ORIENTATION
ANALYZING	AND	
VISUALIZING	DATA	
WITH	EXCEL
PRINCIPLES	OF	
MACHINE	
LEARNING
Essential	Statistics	
for	Data	Analysis	
using	Excel
INTRODUCTION	
TO	R	FOR	DATA	
SCIENCE
INTRODUCTION	
TO	PYTHON	FOR	
DATA	SCIENCE
DATA	SCIENCE	
ESSENTIALS
CORTANA	
COMPETITION
PROJECT
專案
Microsoft Professional Program
ANALYZING	BIG	DATA	
WITH	MICROSOFT	R	
SERVER
DATA SCIENCE
CHALLENGE
名稱
Essential Statistics for Data Analysis using Excel
資料分析會用到的統計學 – 使用 Excel
時數 每週 2 ~ 4 小時、共 6 週
目標
學習如何透過基礎的統計與機率,運用
Excel來實作資料分析與資料科學基礎。
26
PROGRAMMING	
WITH	PYTHON	
FOR	DATA	
SCIENCE
PROGRAMMING	
WITH	R	FOR	DATA	
SCIENCE
APPLIED	MACHINE	
LEARNING
DEVELOPING	INTELLIGENT	
APPLICATIONS	AND	BOTS
IMPLEMENTING	PREDICTIVE	
SOLUTIONS	WITH	SPARK	IN	
HDINSIGHT
CORE DATA
SCIENCE
資料科學核心
FUNDAMENTALS
基礎課程
APPLIED
DATA SCIENCE
應用資料科學
ANALYZING	&	
VISUALIZING	
DATA	WITH	
POWER	BI
QUERYING	DATA	
WITH	TRANSACT-
SQL
DATA	SCIENCE	
ORIENTATION
ANALYZING	AND	
VISUALIZING	DATA	
WITH	EXCEL
PRINCIPLES	OF	
MACHINE	
LEARNING
Essential	Statistics	
for	Data	Analysis	
using	Excel
INTRODUCTION	
TO	R	FOR	DATA	
SCIENCE
INTRODUCTION	
TO	PYTHON	FOR	
DATA	SCIENCE
DATA	SCIENCE	
ESSENTIALS
CORTANA	
COMPETITION
PROJECT
專案
Microsoft Professional Program
ANALYZING	BIG	DATA	
WITH	MICROSOFT	R	
SERVER
DATA SCIENCE
CHALLENGE
名稱
Introduction to R for Data Science
資料科學會用到的R語言 - 導論
時數 每週 2 小時、共 4 週
目標
學習資料科學專家常用的R語言,從基礎語
法、變數與基本運算開始,接著來了解R語
言的資料結構如向量、矩陣與清單等。
27
DataCamp
https://campus.datacamp.com/courses/introduction-to-r-for-data-science-edx/
28
R語言練習
http://mobiledev.tw/languager/
29
PROGRAMMING	
WITH	PYTHON	
FOR	DATA	
SCIENCE
PROGRAMMING	
WITH	R	FOR	DATA	
SCIENCE
APPLIED	MACHINE	
LEARNING
DEVELOPING	INTELLIGENT	
APPLICATIONS	AND	BOTS
IMPLEMENTING	PREDICTIVE	
SOLUTIONS	WITH	SPARK	IN	
HDINSIGHT
CORE DATA
SCIENCE
資料科學核心
FUNDAMENTALS
基礎課程
APPLIED
DATA SCIENCE
應用資料科學
ANALYZING	&	
VISUALIZING	
DATA	WITH	
POWER	BI
QUERYING	DATA	
WITH	TRANSACT-
SQL
DATA	SCIENCE	
ORIENTATION
ANALYZING	AND	
VISUALIZING	DATA	
WITH	EXCEL
PRINCIPLES	OF	
MACHINE	
LEARNING
Essential	Statistics	
for	Data	Analysis	
using	Excel
INTRODUCTION	
TO	R	FOR	DATA	
SCIENCE
INTRODUCTION	
TO	PYTHON	FOR	
DATA	SCIENCE
DATA	SCIENCE	
ESSENTIALS
CORTANA	
COMPETITION
PROJECT
專案
Microsoft Professional Program
ANALYZING	BIG	DATA	
WITH	MICROSOFT	R	
SERVER
DATA SCIENCE
CHALLENGE
名稱
Introduction to Python for Data Science
資料科學會用到的Python語言 - 導論
時數 每週 2~4 小時、共 6 週
目標
學習Python語言,從簡單的運算、變數與
資料結構,再到函數、流程控制,並開始
能用真實的資料來進行視覺化。
30
模組與學習目標
1. Python語法基礎
– 了解基本語法、變數與型態
2. List 資料結構
– 建立與維護一個常見的Python List
3. 函數與套件
– 了解如何使用函數、匯入套件
4. Plotting with Matplotlib
– 使用真實資料來繪製圖型
5. 流程控制與Pandas
– 使用控制流程以及了解Pandas data frame
31
PROGRAMMING	
WITH	PYTHON	
FOR	DATA	
SCIENCE
PROGRAMMING	
WITH	R	FOR	DATA	
SCIENCE
APPLIED	MACHINE	
LEARNING
DEVELOPING	INTELLIGENT	
APPLICATIONS	AND	BOTS
IMPLEMENTING	PREDICTIVE	
SOLUTIONS	WITH	SPARK	IN	
HDINSIGHT
CORE DATA
SCIENCE
資料科學核心
FUNDAMENTALS
基礎課程
APPLIED
DATA SCIENCE
應用資料科學
ANALYZING	&	
VISUALIZING	
DATA	WITH	
POWER	BI
QUERYING	DATA	
WITH	TRANSACT-
SQL
DATA	SCIENCE	
ORIENTATION
ANALYZING	AND	
VISUALIZING	DATA	
WITH	EXCEL
PRINCIPLES	OF	
MACHINE	
LEARNING
Essential	Statistics	
for	Data	Analysis	
using	Excel
INTRODUCTION	
TO	R	FOR	DATA	
SCIENCE
INTRODUCTION	
TO	PYTHON	FOR	
DATA	SCIENCE
DATA	SCIENCE	
ESSENTIALS
CORTANA	
COMPETITION
PROJECT
專案
Microsoft Professional Program
ANALYZING	BIG	DATA	
WITH	MICROSOFT	R	
SERVER
DATA SCIENCE
CHALLENGE
名稱
Data Science Essentials
資料科學精要
時數 每週 3~4 小時、共 6 週
目標
了解資料科學的運作中,必備的關鍵概念
與技術,包含統計分析、資料清理與轉換、
R或Python的資料視覺化,以及Azure機器
學習。
32
PROGRAMMING	
WITH	PYTHON	
FOR	DATA	
SCIENCE
PROGRAMMING	
WITH	R	FOR	DATA	
SCIENCE
APPLIED	MACHINE	
LEARNING
DEVELOPING	INTELLIGENT	
APPLICATIONS	AND	BOTS
IMPLEMENTING	PREDICTIVE	
SOLUTIONS	WITH	SPARK	IN	
HDINSIGHT
CORE DATA
SCIENCE
資料科學核心
FUNDAMENTALS
基礎課程
APPLIED
DATA SCIENCE
應用資料科學
ANALYZING	&	
VISUALIZING	
DATA	WITH	
POWER	BI
QUERYING	DATA	
WITH	TRANSACT-
SQL
DATA	SCIENCE	
ORIENTATION
ANALYZING	AND	
VISUALIZING	DATA	
WITH	EXCEL
PRINCIPLES	OF	
MACHINE	
LEARNING
Essential	Statistics	
for	Data	Analysis	
using	Excel
INTRODUCTION	
TO	R	FOR	DATA	
SCIENCE
INTRODUCTION	
TO	PYTHON	FOR	
DATA	SCIENCE
DATA	SCIENCE	
ESSENTIALS
CORTANA	
COMPETITION
PROJECT
專案
Microsoft Professional Program
ANALYZING	BIG	DATA	
WITH	MICROSOFT	R	
SERVER
DATA SCIENCE
CHALLENGE
名稱
Principles of Machine Learning
機器學習準則
時數 每週 3~4 小時、共 6 週
目標
學習如何建立、評估與最佳化機器學習模
型,包含分類、回歸、叢集與推薦。
33
PROGRAMMING	
WITH	PYTHON	
FOR	DATA	
SCIENCE
PROGRAMMING	
WITH	R	FOR	DATA	
SCIENCE
APPLIED	MACHINE	
LEARNING
DEVELOPING	INTELLIGENT	
APPLICATIONS	AND	BOTS
IMPLEMENTING	PREDICTIVE	
SOLUTIONS	WITH	SPARK	IN	
HDINSIGHT
CORE DATA
SCIENCE
資料科學核心
FUNDAMENTALS
基礎課程
APPLIED
DATA SCIENCE
應用資料科學
ANALYZING	&	
VISUALIZING	
DATA	WITH	
POWER	BI
QUERYING	DATA	
WITH	TRANSACT-
SQL
DATA	SCIENCE	
ORIENTATION
ANALYZING	AND	
VISUALIZING	DATA	
WITH	EXCEL
PRINCIPLES	OF	
MACHINE	
LEARNING
Essential	Statistics	
for	Data	Analysis	
using	Excel
INTRODUCTION	
TO	R	FOR	DATA	
SCIENCE
INTRODUCTION	
TO	PYTHON	FOR	
DATA	SCIENCE
DATA	SCIENCE	
ESSENTIALS
CORTANA	
COMPETITION
PROJECT
專案
Microsoft Professional Program
ANALYZING	BIG	DATA	
WITH	MICROSOFT	R	
SERVER
DATA SCIENCE
CHALLENGE
名稱
Programming with R for Data Science
資料科學的應用 – 使用R語言
時數 每週 4~8 小時、共 6 週
目標
運用R語言的資料結構與語法,將檔案送至
雲端資料庫,並轉換成你所需要的樣貌。
34
PROGRAMMING	
WITH	PYTHON	
FOR	DATA	
SCIENCE
PROGRAMMING	
WITH	R	FOR	DATA	
SCIENCE
APPLIED	MACHINE	
LEARNING
DEVELOPING	INTELLIGENT	
APPLICATIONS	AND	BOTS
IMPLEMENTING	PREDICTIVE	
SOLUTIONS	WITH	SPARK	IN	
HDINSIGHT
CORE DATA
SCIENCE
資料科學核心
FUNDAMENTALS
基礎課程
APPLIED
DATA SCIENCE
應用資料科學
ANALYZING	&	
VISUALIZING	
DATA	WITH	
POWER	BI
QUERYING	DATA	
WITH	TRANSACT-
SQL
DATA	SCIENCE	
ORIENTATION
ANALYZING	AND	
VISUALIZING	DATA	
WITH	EXCEL
PRINCIPLES	OF	
MACHINE	
LEARNING
Essential	Statistics	
for	Data	Analysis	
using	Excel
INTRODUCTION	
TO	R	FOR	DATA	
SCIENCE
INTRODUCTION	
TO	PYTHON	FOR	
DATA	SCIENCE
DATA	SCIENCE	
ESSENTIALS
CORTANA	
COMPETITION
PROJECT
專案
Microsoft Professional Program
ANALYZING	BIG	DATA	
WITH	MICROSOFT	R	
SERVER
DATA SCIENCE
CHALLENGE
名稱
Programming with Python for Data Science
資料科學的應用 – 使用Python
時數 每週 3~4 小時、共 6 週
目標
使用Python來實作知名的資料掘礦模型,
來獲取資料背後的秘密,並了解如何進行
資料視覺化、叢集與分類等任務。
35
PROGRAMMING	
WITH	PYTHON	
FOR	DATA	
SCIENCE
PROGRAMMING	
WITH	R	FOR	DATA	
SCIENCE
APPLIED	MACHINE	
LEARNING
DEVELOPING	INTELLIGENT	
APPLICATIONS	AND	BOTS
IMPLEMENTING	PREDICTIVE	
SOLUTIONS	WITH	SPARK	IN	
HDINSIGHT
CORE DATA
SCIENCE
資料科學核心
FUNDAMENTALS
基礎課程
APPLIED
DATA SCIENCE
應用資料科學
ANALYZING	&	
VISUALIZING	
DATA	WITH	
POWER	BI
QUERYING	DATA	
WITH	TRANSACT-
SQL
DATA	SCIENCE	
ORIENTATION
ANALYZING	AND	
VISUALIZING	DATA	
WITH	EXCEL
PRINCIPLES	OF	
MACHINE	
LEARNING
Essential	Statistics	
for	Data	Analysis	
using	Excel
INTRODUCTION	
TO	R	FOR	DATA	
SCIENCE
INTRODUCTION	
TO	PYTHON	FOR	
DATA	SCIENCE
DATA	SCIENCE	
ESSENTIALS
CORTANA	
COMPETITION
PROJECT
專案
Microsoft Professional Program
ANALYZING	BIG	DATA	
WITH	MICROSOFT	R	
SERVER
DATA SCIENCE
CHALLENGE
名稱
Applied Machine Learning
機器學習應用
時數 每週 3~4 小時、共 6 週
目標
學習如何運用機器學習,來解決常見的預
測問題,如文字分析、空間資料分析、影
像處理與時間序列預測等。
36
PROGRAMMING	
WITH	PYTHON	
FOR	DATA	
SCIENCE
PROGRAMMING	
WITH	R	FOR	DATA	
SCIENCE
APPLIED	MACHINE	
LEARNING
DEVELOPING	INTELLIGENT	
APPLICATIONS	AND	BOTS
IMPLEMENTING	PREDICTIVE	
SOLUTIONS	WITH	SPARK	IN	
HDINSIGHT
CORE DATA
SCIENCE
資料科學核心
FUNDAMENTALS
基礎課程
APPLIED
DATA SCIENCE
應用資料科學
ANALYZING	&	
VISUALIZING	
DATA	WITH	
POWER	BI
QUERYING	DATA	
WITH	TRANSACT-
SQL
DATA	SCIENCE	
ORIENTATION
ANALYZING	AND	
VISUALIZING	DATA	
WITH	EXCEL
PRINCIPLES	OF	
MACHINE	
LEARNING
Essential	Statistics	
for	Data	Analysis	
using	Excel
INTRODUCTION	
TO	R	FOR	DATA	
SCIENCE
INTRODUCTION	
TO	PYTHON	FOR	
DATA	SCIENCE
DATA	SCIENCE	
ESSENTIALS
CORTANA	
COMPETITION
PROJECT
專案
Microsoft Professional Program
ANALYZING	BIG	DATA	
WITH	MICROSOFT	R	
SERVER
DATA SCIENCE
CHALLENGE
名稱
Implementing Predictive Solutions with
Spark in HDInsight
在HDInsight中使用Spark實作預測型解決方案
時數 每週 4 小時、共 6 週
目標
學習如何運用Spark在微軟Azure HDInsight
中建立預測分析與機器學習的解決方案。了
解如何進行資料清理與轉換,並能建立機器
學習模型。
37
PROGRAMMING	
WITH	PYTHON	
FOR	DATA	
SCIENCE
PROGRAMMING	
WITH	R	FOR	DATA	
SCIENCE
APPLIED	MACHINE	
LEARNING
DEVELOPING	INTELLIGENT	
APPLICATIONS	AND	BOTS
IMPLEMENTING	PREDICTIVE	
SOLUTIONS	WITH	SPARK	IN	
HDINSIGHT
CORE DATA
SCIENCE
資料科學核心
FUNDAMENTALS
基礎課程
APPLIED
DATA SCIENCE
應用資料科學
ANALYZING	&	
VISUALIZING	
DATA	WITH	
POWER	BI
QUERYING	DATA	
WITH	TRANSACT-
SQL
DATA	SCIENCE	
ORIENTATION
ANALYZING	AND	
VISUALIZING	DATA	
WITH	EXCEL
PRINCIPLES	OF	
MACHINE	
LEARNING
Essential	Statistics	
for	Data	Analysis	
using	Excel
INTRODUCTION	
TO	R	FOR	DATA	
SCIENCE
INTRODUCTION	
TO	PYTHON	FOR	
DATA	SCIENCE
DATA	SCIENCE	
ESSENTIALS
CORTANA	
COMPETITION
PROJECT
專案
Microsoft Professional Program
ANALYZING	BIG	DATA	
WITH	MICROSOFT	R	
SERVER
DATA SCIENCE
CHALLENGE
名稱
Developing Intelligent Apps and Bots
智慧應用與機器人開發
時數 每週 4 小時、共 6 週
目標
了解如何透過機器學習來開發智慧應用,與
使用者有著超乎想像的連結關係。
38
PROGRAMMING	
WITH	PYTHON	
FOR	DATA	
SCIENCE
PROGRAMMING	
WITH	R	FOR	DATA	
SCIENCE
APPLIED	MACHINE	
LEARNING
DEVELOPING	INTELLIGENT	
APPLICATIONS	AND	BOTS
IMPLEMENTING	PREDICTIVE	
SOLUTIONS	WITH	SPARK	IN	
HDINSIGHT
CORE DATA
SCIENCE
資料科學核心
FUNDAMENTALS
基礎課程
APPLIED
DATA SCIENCE
應用資料科學
ANALYZING	&	
VISUALIZING	
DATA	WITH	
POWER	BI
QUERYING	DATA	
WITH	TRANSACT-
SQL
DATA	SCIENCE	
ORIENTATION
ANALYZING	AND	
VISUALIZING	DATA	
WITH	EXCEL
PRINCIPLES	OF	
MACHINE	
LEARNING
Essential	Statistics	
for	Data	Analysis	
using	Excel
INTRODUCTION	
TO	R	FOR	DATA	
SCIENCE
INTRODUCTION	
TO	PYTHON	FOR	
DATA	SCIENCE
DATA	SCIENCE	
ESSENTIALS
CORTANA	
COMPETITION
PROJECT
專案
Microsoft Professional Program
ANALYZING	BIG	DATA	
WITH	MICROSOFT	R	
SERVER
DATA SCIENCE
CHALLENGE
名稱
Analyzing Big Data with Microsoft R Server
巨量資料分析 – 使用微軟R Server
時數 每週 4 小時、共 4 週
目標
了解如何在微軟R Server上使用R語言,來分
析大量的資料集。
39
PROGRAMMING	
WITH	PYTHON	
FOR	DATA	
SCIENCE
PROGRAMMING	
WITH	R	FOR	DATA	
SCIENCE
APPLIED	MACHINE	
LEARNING
DEVELOPING	INTELLIGENT	
APPLICATIONS	AND	BOTS
IMPLEMENTING	PREDICTIVE	
SOLUTIONS	WITH	SPARK	IN	
HDINSIGHT
CORE DATA
SCIENCE
資料科學核心
FUNDAMENTALS
基礎課程
APPLIED
DATA SCIENCE
應用資料科學
ANALYZING	&	
VISUALIZING	
DATA	WITH	
POWER	BI
QUERYING	DATA	
WITH	TRANSACT-
SQL
DATA	SCIENCE	
ORIENTATION
ANALYZING	AND	
VISUALIZING	DATA	
WITH	EXCEL
PRINCIPLES	OF	
MACHINE	
LEARNING
Essential	Statistics	
for	Data	Analysis	
using	Excel
INTRODUCTION	
TO	R	FOR	DATA	
SCIENCE
INTRODUCTION	
TO	PYTHON	FOR	
DATA	SCIENCE
DATA	SCIENCE	
ESSENTIALS
CORTANA	
COMPETITION
PROJECT
專案
Microsoft Professional Program
ANALYZING	BIG	DATA	
WITH	MICROSOFT	R	
SERVER
DATA SCIENCE
CHALLENGE
名稱
Data Science Professional Project
資料科學實際案例實作
時數 每週 3~4 小時、共 4 週
目標
利用這一系列的學習,來解決一個真實世界
的資料科學問題。你必須開發出一套機器學
習的解決方案,經由測試來決定最終分數。
40
課程在哪裡
openedx.iiiedu.org.tw
41
裡面有什麼?
• 課程影片
• 階段性測驗
–選擇題、填充題
• 實作Lab
–實作後回填結果
• 期末測驗
–限時測驗
42
註冊帳號 – 請使用學校email
43
設定密碼 – 超過八碼
• 密碼原則:英文大小寫 + 數字 + 符號
44
如何取得每個科目的認證?
1. 完成要求
– 試題、作業、問卷達到該課程標準(通常為 70%)
2. 購買序號
– 透過資策會-資訊技術訓練中心購買證照申請序號(不定期優惠)
3. 取得證書
– 回到課程網站,輸入序號,取得證書
45
購買證照序號
• 付款方式
–信用卡 / 匯款 / 現金
–台北市復興南路一段390號2樓
• 價格
–原價台幣NT$3,200
–不定期優惠
https://www.slideshare.net/ryan/xopenedxiiieduorgtw
46
Data science
47
資料科學家
2012年哈佛商業評論
資料科學家:21世紀最性感的職業
2015人力資源點評網Glassdoor調查
工作生活兼具薪水又高,資料科學家
榮登最夢幻工作
工作生活平衡度排名前 25	職業薪資對照表
(Source:Glassdoor)
「用資料解決真實問題的人」
48
資料分析5 個關鍵職務
資料來源:104資訊科技
(image	source:managertoday)
49
數據科學家、數據工程師、軟體工程師
https://read01.com/g8mQoO.html
50
資料科學的迷思
• 資料科學是門新學問?
–學術界已經使用數十年,並不是甚麼新領域
• 資料科學會計算出好的結果?
–資料科學不是魔術,你自己都不知道問題與
如何解決時,資料科學是很難跑出好結果的
• 使用大數據的解決方案比較好?
–解決方案的好壞與否取決於其解決問題的全
面性和效率。並沒有用大數據建置的解決方
案就是好方案的說法。
51
Schutt	R,	O'Neil	C	(2014)
資料科學家做哪些事?
52
文字探勘流程
Data Source
Data Storage
Data Pre-processing
Data Analysis
· 使用爬蟲程式抓取想分析的資料
· 將取得的資料儲存於分散式檔案系統
· 使用元件:	Solr
· 將資料去除特殊符號以及不必要的URL
· 使用元件:	Spark、Pandas
· 將資料做TFIDF計算每個字詞的權重
· 使用元件:	Spark、Scikit-learn
Data visualization
· 將資料做分析並產出預測結果
· 使用元件:	Tableau、文字雲服務
Data Processing
· 將前處理後的字詞作分詞
· 使用元件:	Jieba
Source : 資策會系統所巨資中心
53
資料探索實例分享-信用卡PIN碼
Source:	http://datagenetics.com/blog/september32012/index.html
54
基本統計
PIN Freq PIN Freq
#1 1234 10.71% #9980 8557 0.00%
#2 1111 6.02% #9981 9047 0.00%
#3 0000 1.88% #9982 8438 0.00%
#4 1212 1.20% #9983 0439 0.00%
#5 7777 0.75% #9984 9539 0.00%
#6 1004 0.62% #9985 8196 0.00%
#7 2000 0.61% #9986 7063 0.00%
#8 4444 0.53% #9987 6093 0.00%
#9 2222 0.52% #9988 6827 0.00%
#10 6969 0.51% #9989 7394 0.00%
#11 9999 0.45% #9990 0859 0.00%
#12 3333 0.42% #9991 8957 0.00%
#13 5555 0.40% #9992 9480 0.00%
#14 6666 0.39% #9993 6793 0.00%
#15 1122 0.37% #9994 8398 0.00%
#16 1313 0.30% #9995 0738 0.00%
#17 8888 0.30% #9996 7637 0.00%
#18 4321 0.29% #9997 6835 0.00%
#19 2001 0.29% #9998 9629 0.00%
#20 1010 0.29% #9999 8093 0.00%
⋯⋯ ⋯⋯ #10000 8068 0.00%
「2580」名列第22		?
不意外!
1234,	1111,	0000,	1212,	7777
55
資料視覺化
不到五百組就把一半密碼都破解了 (全部 10000組)
Cumulative	Frequency
56
資料視覺化
Cumulative	Frequency
人們偏好「19XX」系列?
57
資料視覺化
「195X」一直到「198X」的出現頻率比遠遠高過其他年份
58
資料視覺化-資料矩陣
00
99
00
99
19
越偏白黃的顏色就是
頻率越高的組合
偏紅黑色即是頻率低
的組合
兩個一組重複
(如:	1212,	5454,..)
17.8%	!!
0987
2468
2345
4321
5678
7890
前兩位數 00~20
後兩位數 00~30
前兩位數 10~12
後兩位數 00~30
59
某新創公司的智慧商情分析系統
利用監控攝影機,讓數字說話
Source :http://iknow.stpi.narl.org.tw/Post/Read.aspx?PostID=12747
• 人流統計
• 櫥窗轉換率
• 客人停留次數與平均
停留時間
• 即時反應店內人數
• 熱區分析
• 動線分析
• 自動天氣
• 客層分析
• 黑白名單
• 即時遠端觀看
• 結合POS
60
相關資訊
• 微軟x資策會 - 資料科學家線上學習
– https://openedx.iiiedu.org.tw
• 未來之星 – 菁英培育計畫
– http://elite.iiiedu.org.tw/
• FB社團 – 大學生的資訊充電站
– https://www.facebook.com/groups/846979765403349/
• FB粉絲團 – 行動開發學院
– https://www.facebook.com/mobiledev.tw/
61
敬請指教
Ryan Chung
Program R&D Manager
III IT Training Center
Ryan@iii.org.tw
62

資料科學的第一堂課 Data Science Orientation