Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

資料科學的第一堂課 Data Science Orientation

1,160 views

Published on

合作單位:
1.台灣大學 NTU CS+X
2.微軟學生大使 MSP
3.資策會大專院校「未來之星 - 菁英培育」計畫

Published in: Technology

資料科學的第一堂課 Data Science Orientation

  1. 1. 微軟專業學程 - 資料科學 資策會大專院校「未來之星 – 菁英培育」計畫 Ryan Chung III IT Training Center 1
  2. 2. Ryan@iii.org.tw 元智資工 台科大 資工所 資策會 工程師 自由軟體 推廣計畫 網站開發 線上學習 資策會 講師 行動開發 學院 資策會 課程經理 資料科學 人工智慧 2
  3. 3. 資策會 IT Training Center ² 最新科技進修 Ø 在職夜間假日進修 Ø 轉職全天養成班 ² 資訊技術充電站 Ø 國際技術趨勢 Ø 職場必備能力 Ø 基本資訊技能 http://taipei.iiiedu.org.tw/ 3
  4. 4. 未來之星 – 菁英培育計畫 • 台灣大學 • 中山大學 • 中央大學 • 元智大學 • 金門大學 • 東華大學 • 暨南大學 • 長榮大學 • 逢甲大學 • 。。。 http://elite.iiiedu.org.tw/ 4
  5. 5. 如何加入學習的行列? 1. 在「資策會線上學習網」上選修課程 2. 參加「未來之星菁英培育」校園巡迴講座 3. 上FB社團版「大學生的資訊充電站」討論 https://www.facebook.com/groups/846979765403349/ openedx.iiiedu.org.tw 5
  6. 6. Microsoft Professional Program 6
  7. 7. Microsoft Professional Program Data Science • T-SQL • Excel • Power BI • Python • R • Azure Machine Learning • HDInsight • Spark Big Data • Azure Data Lake • Hadoop • HDInsight • Spark • Azure Data Factory • Azure Stream Analytics Front-end Web Development • HTML • CSS • JavaScript • Angular • jQuery • DevOps https://academy.microsoft.com 7
  8. 8. 資料科學 -> 大數據 -> 人工智慧 1.依工作專業需求規劃 2.搭配 Hands-on lab 和實務專題 3.完成課程可加購數位認證(非必要) 4.擁抱開源,適用於不同平台的資料科學技能 https://technews.tw/2017/09/04/microsoft-tmu-ai-plan/ 8
  9. 9. IT 技術集大成 網站開發 APP開發 語音助理 Chatbot 資料科學 巨量資料 智慧系統 AI 人工 智慧 9
  10. 10. 推廣策略 • 未來之星-菁英培育計畫校園講座 elite.iiiedu.org.tw 大專在校學生 • 線上開放式課程 openedx.iiiedu.org.tw 一般社會大眾 • 國際菁英俱樂部-資料科學家 mobiledev.tw/dma777 在職人士進修 • AI Engineer 應用開發就業養成班 taipei.iiiedu.org.tw/training/aien.html 求職人士轉業 10
  11. 11. 微軟x資策會 資料科學認證課程 11 https://www.bnext.com.tw/article/44337/microsoft-team-up-with-iii-to-cultivate-data-scientist-in-taiwan
  12. 12. TVBS 報導 12
  13. 13. 微軟專業學程 - 資料科學 http://taipei.iiiedu.org.tw/mpp-ds/ 13
  14. 14. PROGRAMMING WITH PYTHON FOR DATA SCIENCE PROGRAMMING WITH R FOR DATA SCIENCE APPLIED MACHINE LEARNING DEVELOPING INTELLIGENT APPLICATIONS AND BOTS IMPLEMENTING PREDICTIVE SOLUTIONS WITH SPARK IN HDINSIGHT CORE DATA SCIENCE 資料科學核心 FUNDAMENTALS 基礎課程 APPLIED DATA SCIENCE 應用資料科學 ANALYZING & VISUALIZING DATA WITH POWER BI QUERYING DATA WITH TRANSACT- SQL DATA SCIENCE ORIENTATION ANALYZING AND VISUALIZING DATA WITH EXCEL PRINCIPLES OF MACHINE LEARNING Essential Statistics for Data Analysis using Excel INTRODUCTION TO R FOR DATA SCIENCE INTRODUCTION TO PYTHON FOR DATA SCIENCE DATA SCIENCE ESSENTIALS CORTANA COMPETITION PROJECT 專案 Microsoft Professional Program FUNDAMENTALS CORE DATA SCIENCE APPLIED DATA SCIENCE MOC 20-761: Querying Data with Transact-SQL Course 10989A: Analyzing Data with Power BI EXAM 70-761: Querying Data with Transact- SQL 70-778: Analyzing Data with Power BI 70-773: Analyzing Big Data with Microsoft R 70-779: Analyzing Data with Excel OPENEDX ANALYZING BIG DATA WITH MICROSOFT R SERVER DATA SCIENCE CHALLENGE 14
  15. 15. PROGRAMMING WITH PYTHON FOR DATA SCIENCE PROGRAMMING WITH R FOR DATA SCIENCE APPLIED MACHINE LEARNING DEVELOPING INTELLIGENT APPLICATIONS AND BOTS IMPLEMENTING PREDICTIVE SOLUTIONS WITH SPARK IN HDINSIGHT CORE DATA SCIENCE 資料科學核心 FUNDAMENTALS 基礎課程 APPLIED DATA SCIENCE 應用資料科學 ANALYZING & VISUALIZING DATA WITH POWER BI QUERYING DATA WITH TRANSACT- SQL DATA SCIENCE ORIENTATION ANALYZING AND VISUALIZING DATA WITH EXCEL PRINCIPLES OF MACHINE LEARNING Essential Statistics for Data Analysis using Excel INTRODUCTION TO R FOR DATA SCIENCE INTRODUCTION TO PYTHON FOR DATA SCIENCE DATA SCIENCE ESSENTIALS CORTANA COMPETITION PROJECT 專案 Microsoft Professional Program ANALYZING BIG DATA WITH MICROSOFT R SERVER DATA SCIENCE CHALLENGE 名稱 Data Science Orientation 資料科學導論 時數 每週 2 ~ 4 小時、共 6 週 目標 了解資料科學的範疇,如何透過分析、視 覺化工具、統計學等知識與工具,揭露資 料背後的秘密。 15
  16. 16. 模組 • 課程簡介 • Module1:修課說明以及資料科學家訪談 • Module2:資料分析導論 • Module3:統計學簡介 • Lab:使用Excel探索資料 16
  17. 17. 專家認為應具備的能力 • 統計學、數學 • 程式語言 –R、Python • 視覺化工具呈現與講解能力 –Power BI, Tableau, Qlik, Excel • 建模技術、彙整工具 –Azure machine learning, Spark 17
  18. 18. 1.了解問題 Ø 探究領域知識 2.了解資料 Ø 向資料提供者發問 Ø 仔細觀察資料 Ø 保持好奇心與熱情 3.採用適當的方法解決問題 Ø 學習+經驗+嘗試 資料科學家研究過程 18
  19. 19. Working with Data in Excel l 匯入資料方式 Ø 文字檔 Ø 資料庫 Ø … l 資料欄位型別確認 Ø 標頭 Ø 屬性 Ø 分隔 l 新增欄位(Sales、Weekday、Revenue) l 資料整理 Ø 刪除重覆資料 Ø 缺失值 19
  20. 20. Exploring Data in Excel l 設定格式化的條件 Ø 資料橫條(Data Bars) Ø 色階(Color Scale) Ø 圖示(Icon Set) Ø 頂端底端規則(Top10、Button10) l 插入圖表 Ø 折線圖(High/Low Points) Ø 直條圖 20
  21. 21. PROGRAMMING WITH PYTHON FOR DATA SCIENCE PROGRAMMING WITH R FOR DATA SCIENCE APPLIED MACHINE LEARNING DEVELOPING INTELLIGENT APPLICATIONS AND BOTS IMPLEMENTING PREDICTIVE SOLUTIONS WITH SPARK IN HDINSIGHT CORE DATA SCIENCE 資料科學核心 FUNDAMENTALS 基礎課程 APPLIED DATA SCIENCE 應用資料科學 ANALYZING & VISUALIZING DATA WITH POWER BI QUERYING DATA WITH TRANSACT- SQL DATA SCIENCE ORIENTATION ANALYZING AND VISUALIZING DATA WITH EXCEL PRINCIPLES OF MACHINE LEARNING Essential Statistics for Data Analysis using Excel INTRODUCTION TO R FOR DATA SCIENCE INTRODUCTION TO PYTHON FOR DATA SCIENCE DATA SCIENCE ESSENTIALS CORTANA COMPETITION PROJECT 專案 Microsoft Professional Program ANALYZING BIG DATA WITH MICROSOFT R SERVER DATA SCIENCE CHALLENGE 名稱 Querying with Transact-SQL 資料庫概論 – 使用 T-SQL 時數 每週 4 ~ 5 小時、共 6 週 目標 了解資料庫的語法,從第一個SELECT指令 開始學起,到能實作常見的資料庫操作邏 輯在MS SQL Server或Azure SQL 資料庫 21
  22. 22. PROGRAMMING WITH PYTHON FOR DATA SCIENCE PROGRAMMING WITH R FOR DATA SCIENCE APPLIED MACHINE LEARNING DEVELOPING INTELLIGENT APPLICATIONS AND BOTS IMPLEMENTING PREDICTIVE SOLUTIONS WITH SPARK IN HDINSIGHT CORE DATA SCIENCE 資料科學核心 FUNDAMENTALS 基礎課程 APPLIED DATA SCIENCE 應用資料科學 ANALYZING & VISUALIZING DATA WITH POWER BI QUERYING DATA WITH TRANSACT- SQL DATA SCIENCE ORIENTATION ANALYZING AND VISUALIZING DATA WITH EXCEL PRINCIPLES OF MACHINE LEARNING Essential Statistics for Data Analysis using Excel INTRODUCTION TO R FOR DATA SCIENCE INTRODUCTION TO PYTHON FOR DATA SCIENCE DATA SCIENCE ESSENTIALS CORTANA COMPETITION PROJECT 專案 Microsoft Professional Program ANALYZING BIG DATA WITH MICROSOFT R SERVER DATA SCIENCE CHALLENGE 名稱 Analyzing and Visualizing Data with Excel 資料分析與視覺化 – 使用 Excel 時數 每週 2 ~ 4 小時、共 6 週 目標 使用Excel來分析前所未有的大量資料,運 用更好的視覺化方式與穩健的商業邏輯, 並知道如何從各種來源進行資料匯入。 22
  23. 23. Excel 2016 23
  24. 24. Excel 2016 各平台比較 24
  25. 25. PROGRAMMING WITH PYTHON FOR DATA SCIENCE PROGRAMMING WITH R FOR DATA SCIENCE APPLIED MACHINE LEARNING DEVELOPING INTELLIGENT APPLICATIONS AND BOTS IMPLEMENTING PREDICTIVE SOLUTIONS WITH SPARK IN HDINSIGHT CORE DATA SCIENCE 資料科學核心 FUNDAMENTALS 基礎課程 APPLIED DATA SCIENCE 應用資料科學 ANALYZING & VISUALIZING DATA WITH POWER BI QUERYING DATA WITH TRANSACT- SQL DATA SCIENCE ORIENTATION ANALYZING AND VISUALIZING DATA WITH EXCEL PRINCIPLES OF MACHINE LEARNING Essential Statistics for Data Analysis using Excel INTRODUCTION TO R FOR DATA SCIENCE INTRODUCTION TO PYTHON FOR DATA SCIENCE DATA SCIENCE ESSENTIALS CORTANA COMPETITION PROJECT 專案 Microsoft Professional Program ANALYZING BIG DATA WITH MICROSOFT R SERVER DATA SCIENCE CHALLENGE 名稱 Analyzing and Visualizing Data with Power BI 資料分析與視覺化 – 使用 Power BI 時數 每週 2 ~ 4 小時、共 6 週 目標 學習如何透過Power BI將你的資料視覺化, 了解如何匯入資料,並能發佈報告以及如 何建立跨平台均可使用的Dashboard 25
  26. 26. PROGRAMMING WITH PYTHON FOR DATA SCIENCE PROGRAMMING WITH R FOR DATA SCIENCE APPLIED MACHINE LEARNING DEVELOPING INTELLIGENT APPLICATIONS AND BOTS IMPLEMENTING PREDICTIVE SOLUTIONS WITH SPARK IN HDINSIGHT CORE DATA SCIENCE 資料科學核心 FUNDAMENTALS 基礎課程 APPLIED DATA SCIENCE 應用資料科學 ANALYZING & VISUALIZING DATA WITH POWER BI QUERYING DATA WITH TRANSACT- SQL DATA SCIENCE ORIENTATION ANALYZING AND VISUALIZING DATA WITH EXCEL PRINCIPLES OF MACHINE LEARNING Essential Statistics for Data Analysis using Excel INTRODUCTION TO R FOR DATA SCIENCE INTRODUCTION TO PYTHON FOR DATA SCIENCE DATA SCIENCE ESSENTIALS CORTANA COMPETITION PROJECT 專案 Microsoft Professional Program ANALYZING BIG DATA WITH MICROSOFT R SERVER DATA SCIENCE CHALLENGE 名稱 Essential Statistics for Data Analysis using Excel 資料分析會用到的統計學 – 使用 Excel 時數 每週 2 ~ 4 小時、共 6 週 目標 學習如何透過基礎的統計與機率,運用 Excel來實作資料分析與資料科學基礎。 26
  27. 27. PROGRAMMING WITH PYTHON FOR DATA SCIENCE PROGRAMMING WITH R FOR DATA SCIENCE APPLIED MACHINE LEARNING DEVELOPING INTELLIGENT APPLICATIONS AND BOTS IMPLEMENTING PREDICTIVE SOLUTIONS WITH SPARK IN HDINSIGHT CORE DATA SCIENCE 資料科學核心 FUNDAMENTALS 基礎課程 APPLIED DATA SCIENCE 應用資料科學 ANALYZING & VISUALIZING DATA WITH POWER BI QUERYING DATA WITH TRANSACT- SQL DATA SCIENCE ORIENTATION ANALYZING AND VISUALIZING DATA WITH EXCEL PRINCIPLES OF MACHINE LEARNING Essential Statistics for Data Analysis using Excel INTRODUCTION TO R FOR DATA SCIENCE INTRODUCTION TO PYTHON FOR DATA SCIENCE DATA SCIENCE ESSENTIALS CORTANA COMPETITION PROJECT 專案 Microsoft Professional Program ANALYZING BIG DATA WITH MICROSOFT R SERVER DATA SCIENCE CHALLENGE 名稱 Introduction to R for Data Science 資料科學會用到的R語言 - 導論 時數 每週 2 小時、共 4 週 目標 學習資料科學專家常用的R語言,從基礎語 法、變數與基本運算開始,接著來了解R語 言的資料結構如向量、矩陣與清單等。 27
  28. 28. DataCamp https://campus.datacamp.com/courses/introduction-to-r-for-data-science-edx/ 28
  29. 29. R語言練習 http://mobiledev.tw/languager/ 29
  30. 30. PROGRAMMING WITH PYTHON FOR DATA SCIENCE PROGRAMMING WITH R FOR DATA SCIENCE APPLIED MACHINE LEARNING DEVELOPING INTELLIGENT APPLICATIONS AND BOTS IMPLEMENTING PREDICTIVE SOLUTIONS WITH SPARK IN HDINSIGHT CORE DATA SCIENCE 資料科學核心 FUNDAMENTALS 基礎課程 APPLIED DATA SCIENCE 應用資料科學 ANALYZING & VISUALIZING DATA WITH POWER BI QUERYING DATA WITH TRANSACT- SQL DATA SCIENCE ORIENTATION ANALYZING AND VISUALIZING DATA WITH EXCEL PRINCIPLES OF MACHINE LEARNING Essential Statistics for Data Analysis using Excel INTRODUCTION TO R FOR DATA SCIENCE INTRODUCTION TO PYTHON FOR DATA SCIENCE DATA SCIENCE ESSENTIALS CORTANA COMPETITION PROJECT 專案 Microsoft Professional Program ANALYZING BIG DATA WITH MICROSOFT R SERVER DATA SCIENCE CHALLENGE 名稱 Introduction to Python for Data Science 資料科學會用到的Python語言 - 導論 時數 每週 2~4 小時、共 6 週 目標 學習Python語言,從簡單的運算、變數與 資料結構,再到函數、流程控制,並開始 能用真實的資料來進行視覺化。 30
  31. 31. 模組與學習目標 1. Python語法基礎 – 了解基本語法、變數與型態 2. List 資料結構 – 建立與維護一個常見的Python List 3. 函數與套件 – 了解如何使用函數、匯入套件 4. Plotting with Matplotlib – 使用真實資料來繪製圖型 5. 流程控制與Pandas – 使用控制流程以及了解Pandas data frame 31
  32. 32. PROGRAMMING WITH PYTHON FOR DATA SCIENCE PROGRAMMING WITH R FOR DATA SCIENCE APPLIED MACHINE LEARNING DEVELOPING INTELLIGENT APPLICATIONS AND BOTS IMPLEMENTING PREDICTIVE SOLUTIONS WITH SPARK IN HDINSIGHT CORE DATA SCIENCE 資料科學核心 FUNDAMENTALS 基礎課程 APPLIED DATA SCIENCE 應用資料科學 ANALYZING & VISUALIZING DATA WITH POWER BI QUERYING DATA WITH TRANSACT- SQL DATA SCIENCE ORIENTATION ANALYZING AND VISUALIZING DATA WITH EXCEL PRINCIPLES OF MACHINE LEARNING Essential Statistics for Data Analysis using Excel INTRODUCTION TO R FOR DATA SCIENCE INTRODUCTION TO PYTHON FOR DATA SCIENCE DATA SCIENCE ESSENTIALS CORTANA COMPETITION PROJECT 專案 Microsoft Professional Program ANALYZING BIG DATA WITH MICROSOFT R SERVER DATA SCIENCE CHALLENGE 名稱 Data Science Essentials 資料科學精要 時數 每週 3~4 小時、共 6 週 目標 了解資料科學的運作中,必備的關鍵概念 與技術,包含統計分析、資料清理與轉換、 R或Python的資料視覺化,以及Azure機器 學習。 32
  33. 33. PROGRAMMING WITH PYTHON FOR DATA SCIENCE PROGRAMMING WITH R FOR DATA SCIENCE APPLIED MACHINE LEARNING DEVELOPING INTELLIGENT APPLICATIONS AND BOTS IMPLEMENTING PREDICTIVE SOLUTIONS WITH SPARK IN HDINSIGHT CORE DATA SCIENCE 資料科學核心 FUNDAMENTALS 基礎課程 APPLIED DATA SCIENCE 應用資料科學 ANALYZING & VISUALIZING DATA WITH POWER BI QUERYING DATA WITH TRANSACT- SQL DATA SCIENCE ORIENTATION ANALYZING AND VISUALIZING DATA WITH EXCEL PRINCIPLES OF MACHINE LEARNING Essential Statistics for Data Analysis using Excel INTRODUCTION TO R FOR DATA SCIENCE INTRODUCTION TO PYTHON FOR DATA SCIENCE DATA SCIENCE ESSENTIALS CORTANA COMPETITION PROJECT 專案 Microsoft Professional Program ANALYZING BIG DATA WITH MICROSOFT R SERVER DATA SCIENCE CHALLENGE 名稱 Principles of Machine Learning 機器學習準則 時數 每週 3~4 小時、共 6 週 目標 學習如何建立、評估與最佳化機器學習模 型,包含分類、回歸、叢集與推薦。 33
  34. 34. PROGRAMMING WITH PYTHON FOR DATA SCIENCE PROGRAMMING WITH R FOR DATA SCIENCE APPLIED MACHINE LEARNING DEVELOPING INTELLIGENT APPLICATIONS AND BOTS IMPLEMENTING PREDICTIVE SOLUTIONS WITH SPARK IN HDINSIGHT CORE DATA SCIENCE 資料科學核心 FUNDAMENTALS 基礎課程 APPLIED DATA SCIENCE 應用資料科學 ANALYZING & VISUALIZING DATA WITH POWER BI QUERYING DATA WITH TRANSACT- SQL DATA SCIENCE ORIENTATION ANALYZING AND VISUALIZING DATA WITH EXCEL PRINCIPLES OF MACHINE LEARNING Essential Statistics for Data Analysis using Excel INTRODUCTION TO R FOR DATA SCIENCE INTRODUCTION TO PYTHON FOR DATA SCIENCE DATA SCIENCE ESSENTIALS CORTANA COMPETITION PROJECT 專案 Microsoft Professional Program ANALYZING BIG DATA WITH MICROSOFT R SERVER DATA SCIENCE CHALLENGE 名稱 Programming with R for Data Science 資料科學的應用 – 使用R語言 時數 每週 4~8 小時、共 6 週 目標 運用R語言的資料結構與語法,將檔案送至 雲端資料庫,並轉換成你所需要的樣貌。 34
  35. 35. PROGRAMMING WITH PYTHON FOR DATA SCIENCE PROGRAMMING WITH R FOR DATA SCIENCE APPLIED MACHINE LEARNING DEVELOPING INTELLIGENT APPLICATIONS AND BOTS IMPLEMENTING PREDICTIVE SOLUTIONS WITH SPARK IN HDINSIGHT CORE DATA SCIENCE 資料科學核心 FUNDAMENTALS 基礎課程 APPLIED DATA SCIENCE 應用資料科學 ANALYZING & VISUALIZING DATA WITH POWER BI QUERYING DATA WITH TRANSACT- SQL DATA SCIENCE ORIENTATION ANALYZING AND VISUALIZING DATA WITH EXCEL PRINCIPLES OF MACHINE LEARNING Essential Statistics for Data Analysis using Excel INTRODUCTION TO R FOR DATA SCIENCE INTRODUCTION TO PYTHON FOR DATA SCIENCE DATA SCIENCE ESSENTIALS CORTANA COMPETITION PROJECT 專案 Microsoft Professional Program ANALYZING BIG DATA WITH MICROSOFT R SERVER DATA SCIENCE CHALLENGE 名稱 Programming with Python for Data Science 資料科學的應用 – 使用Python 時數 每週 3~4 小時、共 6 週 目標 使用Python來實作知名的資料掘礦模型, 來獲取資料背後的秘密,並了解如何進行 資料視覺化、叢集與分類等任務。 35
  36. 36. PROGRAMMING WITH PYTHON FOR DATA SCIENCE PROGRAMMING WITH R FOR DATA SCIENCE APPLIED MACHINE LEARNING DEVELOPING INTELLIGENT APPLICATIONS AND BOTS IMPLEMENTING PREDICTIVE SOLUTIONS WITH SPARK IN HDINSIGHT CORE DATA SCIENCE 資料科學核心 FUNDAMENTALS 基礎課程 APPLIED DATA SCIENCE 應用資料科學 ANALYZING & VISUALIZING DATA WITH POWER BI QUERYING DATA WITH TRANSACT- SQL DATA SCIENCE ORIENTATION ANALYZING AND VISUALIZING DATA WITH EXCEL PRINCIPLES OF MACHINE LEARNING Essential Statistics for Data Analysis using Excel INTRODUCTION TO R FOR DATA SCIENCE INTRODUCTION TO PYTHON FOR DATA SCIENCE DATA SCIENCE ESSENTIALS CORTANA COMPETITION PROJECT 專案 Microsoft Professional Program ANALYZING BIG DATA WITH MICROSOFT R SERVER DATA SCIENCE CHALLENGE 名稱 Applied Machine Learning 機器學習應用 時數 每週 3~4 小時、共 6 週 目標 學習如何運用機器學習,來解決常見的預 測問題,如文字分析、空間資料分析、影 像處理與時間序列預測等。 36
  37. 37. PROGRAMMING WITH PYTHON FOR DATA SCIENCE PROGRAMMING WITH R FOR DATA SCIENCE APPLIED MACHINE LEARNING DEVELOPING INTELLIGENT APPLICATIONS AND BOTS IMPLEMENTING PREDICTIVE SOLUTIONS WITH SPARK IN HDINSIGHT CORE DATA SCIENCE 資料科學核心 FUNDAMENTALS 基礎課程 APPLIED DATA SCIENCE 應用資料科學 ANALYZING & VISUALIZING DATA WITH POWER BI QUERYING DATA WITH TRANSACT- SQL DATA SCIENCE ORIENTATION ANALYZING AND VISUALIZING DATA WITH EXCEL PRINCIPLES OF MACHINE LEARNING Essential Statistics for Data Analysis using Excel INTRODUCTION TO R FOR DATA SCIENCE INTRODUCTION TO PYTHON FOR DATA SCIENCE DATA SCIENCE ESSENTIALS CORTANA COMPETITION PROJECT 專案 Microsoft Professional Program ANALYZING BIG DATA WITH MICROSOFT R SERVER DATA SCIENCE CHALLENGE 名稱 Implementing Predictive Solutions with Spark in HDInsight 在HDInsight中使用Spark實作預測型解決方案 時數 每週 4 小時、共 6 週 目標 學習如何運用Spark在微軟Azure HDInsight 中建立預測分析與機器學習的解決方案。了 解如何進行資料清理與轉換,並能建立機器 學習模型。 37
  38. 38. PROGRAMMING WITH PYTHON FOR DATA SCIENCE PROGRAMMING WITH R FOR DATA SCIENCE APPLIED MACHINE LEARNING DEVELOPING INTELLIGENT APPLICATIONS AND BOTS IMPLEMENTING PREDICTIVE SOLUTIONS WITH SPARK IN HDINSIGHT CORE DATA SCIENCE 資料科學核心 FUNDAMENTALS 基礎課程 APPLIED DATA SCIENCE 應用資料科學 ANALYZING & VISUALIZING DATA WITH POWER BI QUERYING DATA WITH TRANSACT- SQL DATA SCIENCE ORIENTATION ANALYZING AND VISUALIZING DATA WITH EXCEL PRINCIPLES OF MACHINE LEARNING Essential Statistics for Data Analysis using Excel INTRODUCTION TO R FOR DATA SCIENCE INTRODUCTION TO PYTHON FOR DATA SCIENCE DATA SCIENCE ESSENTIALS CORTANA COMPETITION PROJECT 專案 Microsoft Professional Program ANALYZING BIG DATA WITH MICROSOFT R SERVER DATA SCIENCE CHALLENGE 名稱 Developing Intelligent Apps and Bots 智慧應用與機器人開發 時數 每週 4 小時、共 6 週 目標 了解如何透過機器學習來開發智慧應用,與 使用者有著超乎想像的連結關係。 38
  39. 39. PROGRAMMING WITH PYTHON FOR DATA SCIENCE PROGRAMMING WITH R FOR DATA SCIENCE APPLIED MACHINE LEARNING DEVELOPING INTELLIGENT APPLICATIONS AND BOTS IMPLEMENTING PREDICTIVE SOLUTIONS WITH SPARK IN HDINSIGHT CORE DATA SCIENCE 資料科學核心 FUNDAMENTALS 基礎課程 APPLIED DATA SCIENCE 應用資料科學 ANALYZING & VISUALIZING DATA WITH POWER BI QUERYING DATA WITH TRANSACT- SQL DATA SCIENCE ORIENTATION ANALYZING AND VISUALIZING DATA WITH EXCEL PRINCIPLES OF MACHINE LEARNING Essential Statistics for Data Analysis using Excel INTRODUCTION TO R FOR DATA SCIENCE INTRODUCTION TO PYTHON FOR DATA SCIENCE DATA SCIENCE ESSENTIALS CORTANA COMPETITION PROJECT 專案 Microsoft Professional Program ANALYZING BIG DATA WITH MICROSOFT R SERVER DATA SCIENCE CHALLENGE 名稱 Analyzing Big Data with Microsoft R Server 巨量資料分析 – 使用微軟R Server 時數 每週 4 小時、共 4 週 目標 了解如何在微軟R Server上使用R語言,來分 析大量的資料集。 39
  40. 40. PROGRAMMING WITH PYTHON FOR DATA SCIENCE PROGRAMMING WITH R FOR DATA SCIENCE APPLIED MACHINE LEARNING DEVELOPING INTELLIGENT APPLICATIONS AND BOTS IMPLEMENTING PREDICTIVE SOLUTIONS WITH SPARK IN HDINSIGHT CORE DATA SCIENCE 資料科學核心 FUNDAMENTALS 基礎課程 APPLIED DATA SCIENCE 應用資料科學 ANALYZING & VISUALIZING DATA WITH POWER BI QUERYING DATA WITH TRANSACT- SQL DATA SCIENCE ORIENTATION ANALYZING AND VISUALIZING DATA WITH EXCEL PRINCIPLES OF MACHINE LEARNING Essential Statistics for Data Analysis using Excel INTRODUCTION TO R FOR DATA SCIENCE INTRODUCTION TO PYTHON FOR DATA SCIENCE DATA SCIENCE ESSENTIALS CORTANA COMPETITION PROJECT 專案 Microsoft Professional Program ANALYZING BIG DATA WITH MICROSOFT R SERVER DATA SCIENCE CHALLENGE 名稱 Data Science Professional Project 資料科學實際案例實作 時數 每週 3~4 小時、共 4 週 目標 利用這一系列的學習,來解決一個真實世界 的資料科學問題。你必須開發出一套機器學 習的解決方案,經由測試來決定最終分數。 40
  41. 41. 課程在哪裡 openedx.iiiedu.org.tw 41
  42. 42. 裡面有什麼? • 課程影片 • 階段性測驗 –選擇題、填充題 • 實作Lab –實作後回填結果 • 期末測驗 –限時測驗 42
  43. 43. 註冊帳號 – 請使用學校email 43
  44. 44. 設定密碼 – 超過八碼 • 密碼原則:英文大小寫 + 數字 + 符號 44
  45. 45. 如何取得每個科目的認證? 1. 完成要求 – 試題、作業、問卷達到該課程標準(通常為 70%) 2. 購買序號 – 透過資策會-資訊技術訓練中心購買證照申請序號(不定期優惠) 3. 取得證書 – 回到課程網站,輸入序號,取得證書 45
  46. 46. 購買證照序號 • 付款方式 –信用卡 / 匯款 / 現金 –台北市復興南路一段390號2樓 • 價格 –原價台幣NT$3,200 –不定期優惠 https://www.slideshare.net/ryan/xopenedxiiieduorgtw 46
  47. 47. Data science 47
  48. 48. 資料科學家 2012年哈佛商業評論 資料科學家:21世紀最性感的職業 2015人力資源點評網Glassdoor調查 工作生活兼具薪水又高,資料科學家 榮登最夢幻工作 工作生活平衡度排名前 25 職業薪資對照表 (Source:Glassdoor) 「用資料解決真實問題的人」 48
  49. 49. 資料分析5 個關鍵職務 資料來源:104資訊科技 (image source:managertoday) 49
  50. 50. 數據科學家、數據工程師、軟體工程師 https://read01.com/g8mQoO.html 50
  51. 51. 資料科學的迷思 • 資料科學是門新學問? –學術界已經使用數十年,並不是甚麼新領域 • 資料科學會計算出好的結果? –資料科學不是魔術,你自己都不知道問題與 如何解決時,資料科學是很難跑出好結果的 • 使用大數據的解決方案比較好? –解決方案的好壞與否取決於其解決問題的全 面性和效率。並沒有用大數據建置的解決方 案就是好方案的說法。 51
  52. 52. Schutt R, O'Neil C (2014) 資料科學家做哪些事? 52
  53. 53. 文字探勘流程 Data Source Data Storage Data Pre-processing Data Analysis · 使用爬蟲程式抓取想分析的資料 · 將取得的資料儲存於分散式檔案系統 · 使用元件: Solr · 將資料去除特殊符號以及不必要的URL · 使用元件: Spark、Pandas · 將資料做TFIDF計算每個字詞的權重 · 使用元件: Spark、Scikit-learn Data visualization · 將資料做分析並產出預測結果 · 使用元件: Tableau、文字雲服務 Data Processing · 將前處理後的字詞作分詞 · 使用元件: Jieba Source : 資策會系統所巨資中心 53
  54. 54. 資料探索實例分享-信用卡PIN碼 Source: http://datagenetics.com/blog/september32012/index.html 54
  55. 55. 基本統計 PIN Freq PIN Freq #1 1234 10.71% #9980 8557 0.00% #2 1111 6.02% #9981 9047 0.00% #3 0000 1.88% #9982 8438 0.00% #4 1212 1.20% #9983 0439 0.00% #5 7777 0.75% #9984 9539 0.00% #6 1004 0.62% #9985 8196 0.00% #7 2000 0.61% #9986 7063 0.00% #8 4444 0.53% #9987 6093 0.00% #9 2222 0.52% #9988 6827 0.00% #10 6969 0.51% #9989 7394 0.00% #11 9999 0.45% #9990 0859 0.00% #12 3333 0.42% #9991 8957 0.00% #13 5555 0.40% #9992 9480 0.00% #14 6666 0.39% #9993 6793 0.00% #15 1122 0.37% #9994 8398 0.00% #16 1313 0.30% #9995 0738 0.00% #17 8888 0.30% #9996 7637 0.00% #18 4321 0.29% #9997 6835 0.00% #19 2001 0.29% #9998 9629 0.00% #20 1010 0.29% #9999 8093 0.00% ⋯⋯ ⋯⋯ #10000 8068 0.00% 「2580」名列第22 ? 不意外! 1234, 1111, 0000, 1212, 7777 55
  56. 56. 資料視覺化 不到五百組就把一半密碼都破解了 (全部 10000組) Cumulative Frequency 56
  57. 57. 資料視覺化 Cumulative Frequency 人們偏好「19XX」系列? 57
  58. 58. 資料視覺化 「195X」一直到「198X」的出現頻率比遠遠高過其他年份 58
  59. 59. 資料視覺化-資料矩陣 00 99 00 99 19 越偏白黃的顏色就是 頻率越高的組合 偏紅黑色即是頻率低 的組合 兩個一組重複 (如: 1212, 5454,..) 17.8% !! 0987 2468 2345 4321 5678 7890 前兩位數 00~20 後兩位數 00~30 前兩位數 10~12 後兩位數 00~30 59
  60. 60. 某新創公司的智慧商情分析系統 利用監控攝影機,讓數字說話 Source :http://iknow.stpi.narl.org.tw/Post/Read.aspx?PostID=12747 • 人流統計 • 櫥窗轉換率 • 客人停留次數與平均 停留時間 • 即時反應店內人數 • 熱區分析 • 動線分析 • 自動天氣 • 客層分析 • 黑白名單 • 即時遠端觀看 • 結合POS 60
  61. 61. 相關資訊 • 微軟x資策會 - 資料科學家線上學習 – https://openedx.iiiedu.org.tw • 未來之星 – 菁英培育計畫 – http://elite.iiiedu.org.tw/ • FB社團 – 大學生的資訊充電站 – https://www.facebook.com/groups/846979765403349/ • FB粉絲團 – 行動開發學院 – https://www.facebook.com/mobiledev.tw/ 61
  62. 62. 敬請指教 Ryan Chung Program R&D Manager III IT Training Center Ryan@iii.org.tw 62

×