謝宗震 ,DSP 智庫驅動資料科學家,清華統計博士,對於統計方法與工具的推廣具有極大的熱忱,期望利用統計思維及分析工具幫助各個領域解決問題。輔導超過 300 位政府、企業、非營利組織人士成為資料分析人才。 Data for Social Good (D4SG) 計畫共同發起人,打造一個「資料力,做公益」的交流與媒合平台。
Opening Keynote for HadoopCon 2014
我們的身邊、網路上,圍繞著太多的 Big Data 論述與技術,Hadooper 今天聚集在這裡,都已經是 Big Data 的相關利益者,然而, 今天我們所理解的 Big Data,大部分都是透過自身的體驗而來,但 Hadoop Ecosystem 太過龐雜,Use Case 不同,必須取不同的 OSS 專案來完成,如此想來,我們哪一個人何曾看過所有的 Big Data 風景呢?
此 Talk 告訴我們如何透過更多的風景之窗,將 Big Data 的不同天地,看得更多更透。
謝宗震 ,DSP 智庫驅動資料科學家,清華統計博士,對於統計方法與工具的推廣具有極大的熱忱,期望利用統計思維及分析工具幫助各個領域解決問題。輔導超過 300 位政府、企業、非營利組織人士成為資料分析人才。 Data for Social Good (D4SG) 計畫共同發起人,打造一個「資料力,做公益」的交流與媒合平台。
Opening Keynote for HadoopCon 2014
我們的身邊、網路上,圍繞著太多的 Big Data 論述與技術,Hadooper 今天聚集在這裡,都已經是 Big Data 的相關利益者,然而, 今天我們所理解的 Big Data,大部分都是透過自身的體驗而來,但 Hadoop Ecosystem 太過龐雜,Use Case 不同,必須取不同的 OSS 專案來完成,如此想來,我們哪一個人何曾看過所有的 Big Data 風景呢?
此 Talk 告訴我們如何透過更多的風景之窗,將 Big Data 的不同天地,看得更多更透。
在這資料科學逐漸成為顯學的年代,無論面對的是資料的幾個 V,其中最重要的永遠都是 Value (價值) 這個 V,而資料探勘正是一種透過系統化的方式釐清資料的脈絡、找出其中有價值的特徵與相關性的技術。這門六小時的課程,將從最實務的角度切入,與大家分享如何將現實中極待解決的問題,轉換成可以利用資料探勘技術處理的問題,並且運用 R 語言中各種強大的工具,進行關聯性分析、迴歸分析以及叢聚分析,以達成將資料中隱藏的資訊挖掘出來的最終目標。
亞洲 Hadoop 產品與解決方案引領者 Etu,於年度 Etu Solution Day (ESD) 活動中發表「2014 年台灣 Big Data 市場 5 大趨勢預測」。Etu 也首度發表兩岸的 10 大行業、21 種 Hadoop Big Data 已經被驗證的應用,如電信業的經營分析與客服查詢、電子商務的精準推薦、數位媒體的內容推薦、零售行業的使用者行為分析、高科技製造的資料倉儲工作分流卸載與製程良率分析、政府與地產的輿情分析、電力的能源管理、保險的巨量小圖檔管理等。預期 2014 年的台灣 Big Data 市場將更為成熟,經過驗證階段後,進入最後導入階段的企業也可望有倍數的成長。
Etu 負責人蔣居裕表示:「UDN 的採用,說明了台灣企業導入 Big Data 應用的需求在特定產業力道明顯上揚,『2014 年台灣 Big Data 市場的 5 大趨勢預測』也呼應了這樣的看法。」蔣居裕說:「一、首先過河的人,要開始挑戰資料價值的海洋,越早期投入者,越用越深,越深越廣;二、Total Data BI 帶動企業採用多結構化資料倉儲。客戶行為分析、精準行銷、客戶體驗是應用目標;三、從新舊系統整合到 End-to-End 解決方案,大部分企業期待廠商能夠完整交付 Big Data 應用與專業技術顧問。『容易』(Ease) 是 Big Data 產品進入企業的關鍵字;四、資料探索工具當道,力助 Business User 比 IT 人員更能挖掘 Big Data 的價值。『探索』(Discovery) 是 Big Data 分析的神髓所在 —— 探索關聯、探索意圖、探索缺少什麼;五、Big Data 教育訓練課程,從以處理技術為主者,快速擴展到資料分析。但均會被含括在『資料科學』大傘下。資料科學家萬中選一,強調專業分工的資料科學團隊,才是實踐資料價值希望之所在。」
ESD 2013 另外還展現了藉由 Etu Appliance 所架構起來的 Etu Ecosystem,展示了由 Etu 以及 ISV 夥伴們所開發的 End-to-End 解決方案:Etu Recommender,除了原有的個人化精準推薦,現在還可與第三方工具整合,進行資料視覺化探索,建置使用者行為分析資料倉儲;合作夥伴堂朝數位整合的雲端電子刊物加值平台、PilotTV 前線媒體的收視量測系統、樺鼎商業資訊的視覺化分析工具、以及衛信科技的 SDN 網路管理完整解決方案,則分別透過 Etu Appliance 來做巨量、可擴展的檔案格式轉換運算、臉部辨識資料及時處理與分析、多結構化資料倉儲、網路資料封包預處理等工作。這些方案的共同點,就是它們都是基於不斷獲得各種產品創新獎項的 Etu Appliance 所開發或整合的應用。
在這資料科學逐漸成為顯學的年代,無論面對的是資料的幾個 V,其中最重要的永遠都是 Value (價值) 這個 V,而資料探勘正是一種透過系統化的方式釐清資料的脈絡、找出其中有價值的特徵與相關性的技術。這門六小時的課程,將從最實務的角度切入,與大家分享如何將現實中極待解決的問題,轉換成可以利用資料探勘技術處理的問題,並且運用 R 語言中各種強大的工具,進行關聯性分析、迴歸分析以及叢聚分析,以達成將資料中隱藏的資訊挖掘出來的最終目標。
亞洲 Hadoop 產品與解決方案引領者 Etu,於年度 Etu Solution Day (ESD) 活動中發表「2014 年台灣 Big Data 市場 5 大趨勢預測」。Etu 也首度發表兩岸的 10 大行業、21 種 Hadoop Big Data 已經被驗證的應用,如電信業的經營分析與客服查詢、電子商務的精準推薦、數位媒體的內容推薦、零售行業的使用者行為分析、高科技製造的資料倉儲工作分流卸載與製程良率分析、政府與地產的輿情分析、電力的能源管理、保險的巨量小圖檔管理等。預期 2014 年的台灣 Big Data 市場將更為成熟,經過驗證階段後,進入最後導入階段的企業也可望有倍數的成長。
Etu 負責人蔣居裕表示:「UDN 的採用,說明了台灣企業導入 Big Data 應用的需求在特定產業力道明顯上揚,『2014 年台灣 Big Data 市場的 5 大趨勢預測』也呼應了這樣的看法。」蔣居裕說:「一、首先過河的人,要開始挑戰資料價值的海洋,越早期投入者,越用越深,越深越廣;二、Total Data BI 帶動企業採用多結構化資料倉儲。客戶行為分析、精準行銷、客戶體驗是應用目標;三、從新舊系統整合到 End-to-End 解決方案,大部分企業期待廠商能夠完整交付 Big Data 應用與專業技術顧問。『容易』(Ease) 是 Big Data 產品進入企業的關鍵字;四、資料探索工具當道,力助 Business User 比 IT 人員更能挖掘 Big Data 的價值。『探索』(Discovery) 是 Big Data 分析的神髓所在 —— 探索關聯、探索意圖、探索缺少什麼;五、Big Data 教育訓練課程,從以處理技術為主者,快速擴展到資料分析。但均會被含括在『資料科學』大傘下。資料科學家萬中選一,強調專業分工的資料科學團隊,才是實踐資料價值希望之所在。」
ESD 2013 另外還展現了藉由 Etu Appliance 所架構起來的 Etu Ecosystem,展示了由 Etu 以及 ISV 夥伴們所開發的 End-to-End 解決方案:Etu Recommender,除了原有的個人化精準推薦,現在還可與第三方工具整合,進行資料視覺化探索,建置使用者行為分析資料倉儲;合作夥伴堂朝數位整合的雲端電子刊物加值平台、PilotTV 前線媒體的收視量測系統、樺鼎商業資訊的視覺化分析工具、以及衛信科技的 SDN 網路管理完整解決方案,則分別透過 Etu Appliance 來做巨量、可擴展的檔案格式轉換運算、臉部辨識資料及時處理與分析、多結構化資料倉儲、網路資料封包預處理等工作。這些方案的共同點,就是它們都是基於不斷獲得各種產品創新獎項的 Etu Appliance 所開發或整合的應用。
國立臺灣大學電機所博士生,平時致力於推廣 R 語言,曾主辦多場 R 語言推廣講座,並經常於 Taiwan R User Group 分享 R 的使用心得。有豐富的 R 語言實務經驗,包含資料的收集、整理、分析到報告製作。擅長根據專案需求,量身打造 R 的資料分析系統,以及運用 R 和 C++ 撰寫高效能演算法。
Relational databases vs Non-relational databasesJames Serra
There is a lot of confusion about the place and purpose of the many recent non-relational database solutions ("NoSQL databases") compared to the relational database solutions that have been around for so many years. In this presentation I will first clarify what exactly these database solutions are, compare them, and discuss the best use cases for each. I'll discuss topics involving OLTP, scaling, data warehousing, polyglot persistence, and the CAP theorem. We will even touch on a new type of database solution called NewSQL. If you are building a new solution it is important to understand all your options so you take the right path to success.
Website Architect Proposal of Lingpao Total Fitness GymHuiqin Gao
Koh\'s is a professional workshop of web promotion. This is the proposal of a website architect case of a local gym. We are uploading this to ask for comments, and we\'d appreciate it if you tell us how you see this proposal, please contact: gaohuiqin@foxmail.com, many thanks!!
This is a Chinese presentation called The Business Model of Psy-Business which I spoke at Chinese First Psychology Business Conference in April 1 in Guangzhou, China.
2. Muyueh builds visual interfaces
with effective representation of
data for the human eyes.
Muyueh Lee
(李慕約)
co-founder
3. Ronny builds robots that gather,
clean, and access data.
Ronny worked for Pixnet, the 93rd
largest website in the world, where
he served as VP in product
development.
Ronny Wang
(⺩向榮)
co-founder
4. We empower organizations with data visualization
through three services
Services
We teach classes about
data analysis/visualization
Main Clients
We help companies analyze insights
from their proprietary databases
Locations include: China, Taiwan, Hong Kong, and Singapore
We build visuals that allow humans
to effectively interact with data
5. Several awards certify the quality of our service
Presentation of the visualization tool at the
Al Jazeera Global Hackathon in Dubai
Best Editorial Context Solution in
the Al Jazeera Global Contest, a
competition focused on tech
innovation in media1
Best open data application from
the Vice President of Taiwan (ROC)
First place in Taipei Hackathon
1. This was a team effort, Muyueh developing the
visualization interface (as seen in the photo)
10. 備料佔 50% - 80% 時間
或100% 到 400% 改善空間
Data scientists, spend from 50 percent to 80 percent of their time mired in
this more mundane labor of collecting and preparing unruly digital data
52. The tone of news reports changed when Lee
Kuan Yew, PM of Singapore, passed away
NewsDiff tracks media changes
Data
News from 20 media in Taiwan (4,000 /
day, scanned hourly)
Problem
News articles are updated after being
published, but the changes are not
visible to the public
Solution
By tracking every news update, the
reader can track the on-going issue
with the editorial decision
Project in the g0v.tw community
53. The pop-up shows the work infringement
history of the recruitment page of the company
JobHelper (求職小幫手) empowers job seekers with employer
workplace infringement history
Data
Employer workplace infringement data
Problem
Some employers have workplace
infringement histories that are
unknown to job seekers
Solution
When browsing the recruiting websites
of the potential employee, this browser
extension will display an alert for
workplace infringement history
Project in the g0v.tw community
54. HTC with a change in the capital structure of its
major share holder
CompanyDiff tracks the next move of a company
Data
Financial information of 640,000
companies from the past 3 years. This
includes assets, and operated industry
Problem
Tracking the evolution of different
company financial status
Solution
By collecting and comparing the
financial info of a specific company,
one can see the next move of a
company (change in assets, or change
in registered industry)
2015-04-05
董事⻑ , 姓名: ⺩雪紅 , 持有股份數: 32,272,427
董事 , 姓名: 陳⽂琦 , 持有股份數: 22,391,389
董事 , 姓名: 卓⽕⼟ , 持有股份數: 139,530
96,530
董事 , 姓名: 缺額 , 持有股份數:
董事 , 姓名: David Bruce Yoffie , 持有股份數: 0
獨⽴董事 , 姓名: 林振國 , 持有股份數: 0
獨⽴董事 , 姓名: Josef Felder , 持有股份數:
133,985 229,985
監察⼈ , 姓名: 威智投資股份有限公司 , 持有股份
數: 43,819,290
監察⼈ , 姓名: 朱⿈傑 , 持有股份數: 0
55. Companies with financial investment
relationship with President Chain Store Corp.
Company Investment Relationship Graph
Data
Financial data from all 640,000
companies
Problem
Identify the investment relationship
between companies
Solution
Tracing the board of directors to
identify the financial investment
relationship
Project in the g0v.tw community
58. A map of Taipei showing the population density,
brighter being more
Population Density Map
Data
District boundary data with
presidential election voting statistics
Problem
Calculating the population of an area
is hard, as people’s actual residence
may be different than the one they
registered
Solution
Use water, electricity usage and
election data to estimate the actual
residence in a specific area
59. A map of Taiwan showing the voting result of
the 2012 presidential voting election.
Election Voting Map
Data
District boundary data with
presidential election voting statistics
Problem
Calculating the population of an area
is hard, as people’s actual residence
may be different than the one they
registered
Solution
Use water, electricity usage and
election data to estimate the actual
residence in a specific area