CKAN : 資料開放平台技術介紹 (CAKN : Technical Introduction to Open Data Portal)Jian-Kai Wang
以「技術背景」,「CKAN 架構」,「客製化模版與模組」與「客製化頁面與語言轉換」等四大主軸介紹臺灣疾管署開放資料平台採用之 CKAN 系統架構。
平台 : https://data.cdc.gov.tw
日期 : 2016/09/02
The content consists of (1) background of system operations, (2) the architecture of ckan, (3) customized module and template, (4) customized pages and language translation.
Platform : https://data.cdc.gov.tw
Date : 09/02/2016
CKAN : 資料開放平台技術介紹 (CAKN : Technical Introduction to Open Data Portal)Jian-Kai Wang
以「技術背景」,「CKAN 架構」,「客製化模版與模組」與「客製化頁面與語言轉換」等四大主軸介紹臺灣疾管署開放資料平台採用之 CKAN 系統架構。
平台 : https://data.cdc.gov.tw
日期 : 2016/09/02
The content consists of (1) background of system operations, (2) the architecture of ckan, (3) customized module and template, (4) customized pages and language translation.
Platform : https://data.cdc.gov.tw
Date : 09/02/2016
在此課程中將帶領對資料分析感到陌生卻又充滿興趣的您,完整地學會運用 R 語言從最初的蒐集資料、探索性分析解讀資料,並進行文字探勘,發現那些肉眼看不見、隱藏在資料底下的意義。此課程主要設計給對於 R 語言有基本認識,想要進一步熟悉實作分析的朋友們,希望在課程結束後,您能夠更熟悉 R 語言這個豐富的分析工具。透過蘋果日報慈善捐款的資料集,了解如何從頭解析網頁,撰寫爬蟲自動化收集資訊;取得資料後,能夠靈活處理資料,做清洗、整合及探索;並利用現成的套件進行文字探勘、文本解析;我們將一步步實際走一回資料分析的歷程,處理、觀察、解構資料,試著看看人們在捐款的決策過程中,究竟是什麼因素產生了影響,以及這些結果又是如何從資料中挖掘而出的呢?
5. 程式分析流程
1. 建立 gene name, group, condition 和 expression value 的對應表。
2. 根據每條 gene,計算:
a. c1 = merge(c1-1 to c1-3), c2 = merge(c2-1 to c2-3)
b. de = diff(c1, c2)
3. 輸出符合 de > t1 or de < t2 的 gene。
22. 參考資料
● Spark Quick Start (Official)
● Spark Programming Guide (Official)
● Spark 編程指南繁體中文版
● Spark RDD API详解(一) Map和Reduce
● How to more efficiently calculate the averages for each KEY in a Pairwise (K,
V) RDD in Apache Spark with Python
● Spark函数讲解:aggregateByKey
● 在Docker上用 IPython 開發 Spark的環境建置