Opening Keynote for HadoopCon 2014
我們的身邊、網路上,圍繞著太多的 Big Data 論述與技術,Hadooper 今天聚集在這裡,都已經是 Big Data 的相關利益者,然而, 今天我們所理解的 Big Data,大部分都是透過自身的體驗而來,但 Hadoop Ecosystem 太過龐雜,Use Case 不同,必須取不同的 OSS 專案來完成,如此想來,我們哪一個人何曾看過所有的 Big Data 風景呢?
此 Talk 告訴我們如何透過更多的風景之窗,將 Big Data 的不同天地,看得更多更透。
謝宗震 ,DSP 智庫驅動資料科學家,清華統計博士,對於統計方法與工具的推廣具有極大的熱忱,期望利用統計思維及分析工具幫助各個領域解決問題。輔導超過 300 位政府、企業、非營利組織人士成為資料分析人才。 Data for Social Good (D4SG) 計畫共同發起人,打造一個「資料力,做公益」的交流與媒合平台。
Opening Keynote for HadoopCon 2014
我們的身邊、網路上,圍繞著太多的 Big Data 論述與技術,Hadooper 今天聚集在這裡,都已經是 Big Data 的相關利益者,然而, 今天我們所理解的 Big Data,大部分都是透過自身的體驗而來,但 Hadoop Ecosystem 太過龐雜,Use Case 不同,必須取不同的 OSS 專案來完成,如此想來,我們哪一個人何曾看過所有的 Big Data 風景呢?
此 Talk 告訴我們如何透過更多的風景之窗,將 Big Data 的不同天地,看得更多更透。
謝宗震 ,DSP 智庫驅動資料科學家,清華統計博士,對於統計方法與工具的推廣具有極大的熱忱,期望利用統計思維及分析工具幫助各個領域解決問題。輔導超過 300 位政府、企業、非營利組織人士成為資料分析人才。 Data for Social Good (D4SG) 計畫共同發起人,打造一個「資料力,做公益」的交流與媒合平台。
在這個資料科學蔚為風潮的年代,身為一個對新技術充滿好奇的攻城獅,自然會想要擴充自己的武器庫,學習嶄新的資料分析工具;而 R 語言,一個由統計學家專門為了資料探索與分析所開發的腳本語言,具有龐大的開源社群支持以及琳瑯滿目、數以萬計的各式套件,正是當今學習資料科學相關工具的首選。
然而,R 語言的設計邏輯與一般的程式語言不同,工程師們過去學習程式語言的經驗,往往造成學習 R 語言的障礙,本課程將從 R 語言的基礎開始,讓同學們從課堂講解以及互動式上機課程中,得以徹底理解 R 語言的核心概念與精要,學習如何利用 R 語言問資料問題,並且從資料分析的角度撰寫效率良好同時具有高度可讀性的 R 語言代碼。
在這資料科學逐漸成為顯學的年代,無論面對的是資料的幾個 V,其中最重要的永遠都是 Value (價值) 這個 V,而資料探勘正是一種透過系統化的方式釐清資料的脈絡、找出其中有價值的特徵與相關性的技術。這門六小時的課程,將從最實務的角度切入,與大家分享如何將現實中極待解決的問題,轉換成可以利用資料探勘技術處理的問題,並且運用 R 語言中各種強大的工具,進行關聯性分析、迴歸分析以及叢聚分析,以達成將資料中隱藏的資訊挖掘出來的最終目標。
Open Development in Agriculture (運用數據推動農業開放發展)ckliu
Open development in agriculture, with the help of open data. Introduction to Code for Tomorrow (codefortomorrow.org) and some of the ongoing projects.
介紹農業的開放發展、Code for Tomorrow 組織 (codefortomorrow.org) 與進行中的一些計畫。
59. Data Science Data Lifecycle
Raw Data Clean Data
Data Product Model
Source: Educating the Next Generation of Data Scientists.
60. Data Science Professional Roles
Data Engineers
Data Analysts
Raw Data Clean Data
Data Product Model
```
Product Managers
Adapted from: 資料科學團隊⼈人才培育分享 ─ 以 DSP 為例
61. Data Science Analytic Goals
Aggregation
Enrichment
Processing
Describe
Discover
ETL
Storage
Acquire
Advise Predict
Adapted from: The Field Guide to Data Science.
Regression
Clustering
Regression
Classification
Recommendation
Simulation
Optimization
76. DSP Strategy Map
⼼心法團訓班
中級實戰班
技術學程
嚴選專班
產業專班
Data Science for Business
企業贊助計畫
管理學程
企業專班
政府專班
課外活動
Data
Hackathon
Data
Challenge
Data
Conference
學!
習!
地!
圖
策略夥伴計畫DSP 校友團
77. DSP Strategy Map
⼼心法團訓班
中級實戰班
技術學程
嚴選專班
產業專班
Data Science for Business
企業贊助計畫
管理學程
企業專班
政府專班
課外活動
Data
Hackathon
Data
Challenge
Data
Conference
學!
習!
地!
圖
策略夥伴計畫DSP 校友團
78. DSP Strategy Map
⼼心法團訓班
中級實戰班
技術學程
嚴選專班
產業專班
Data Science for Business
企業贊助計畫
管理學程
企業專班
政府專班
課外活動
Data
Hackathon
Data
Challenge
Data
Conference
學!
習!
地!
圖
策略夥伴計畫DSP 校友團