SlideShare a Scribd company logo
1 of 46
Download to read offline
國立臺北護理健康大學 NTUNHS
資料視覺化
Orozco Hsu
2022-10-31
1
About me
• Education
• NCU (MIS)、NCCU (CS)
• Work Experience
• Telecom big data Innovation
• AI projects
• Retail marketing technology
• User Group
• TW Spark User Group
• TW Hadoop User Group
• Taiwan Data Engineer Association Director
• Research
• Big Data/ ML/ AIOT/ AI Columnist
2
Tutorial
Content
3
EDA process
資料視覺化
作業
建立環境
Code
• Download code
• https://github.com/orozcohsu/ntunhs_2023_02
• Folder
• 20231031
4
建立環境
• Anaconda on Windows
• https://www.anaconda.com/products/distribution
• Miniconda on Windows
• https://docs.conda.io/en/latest/miniconda.html
5
記得打勾
建立環境
• 進入命令提示字元
6
建立環境
• 切換執行環境
7
建立環境
• 安裝套件
• pip install seaborn
• pip install numpy
• pip install pandas
• pip install openpyxl
• pip install jupyterlab
8
建立環境
• 開啟 jupyterlab
9
10
參考: https://commons.wikimedia.org/wiki/File:Data_visualization_process_v1.png
EDA process
• 當我們拿到資料集,如何進行下一步? EDA 就是第一步
• EDA 有助於我們了解資料樣貌
• 總資料筆數、遺缺值比例、遺缺值處理方式、欄位值分布、欄位值合理
性(business domain)
• EDA 有助於事後模型預測
• 進行處理 (normalization與standardization)
11
EDA is an approach to analyzing datasets to summarize their main characteristics,
often with visual methods (wikipedia)
EDA process
• 進行 EDA (敘述型統計)
• 檢視資料集
• 檢查資料筆數與欄位型態
• 檢查是否有不合理的空值
• 檢查是否有不合理的重複值
• 針對數值型欄位繪圖 (以單變量、多變量方式進行)
• 針對類別型欄位繪圖
• 若存在時間關係,針對日、月、年維度與頻次繪圖
12
透過 pandas 套件進行資料整理、操作,更方便進行 EDA
檢視資料集 (使用 pandas 套件的 dataframe)
13
資料集欄位型態
• 主要區分為文字、數字
• 不同型態會有占用不同的記憶體空間
資料集樣貌
• 包含 (索引、欄位名稱)
Dataframe 資料型態
14
參考: https://pbpython.com/pandas_dtypes.html
練習
15
• 請執行下列程式碼
• 學習 pandas、numpy 基本操作 (資料型態、函數調用)
• apply函數, apply lambda 函數
pandas_dtype.ipynb
比較 python 最常見的視覺化套件
• 入門者建議由 matplotlib (seaborn) 進行
• 比較目前5大視覺化套件
• https://zhuanlan.zhihu.com/p/148748125
16
選用 seaborn
• seaborn 是基於matplotlib的圖形視覺化 python套件
• 在 matplotlib 的基礎上進行了更高級的 API 封裝,提供了一種
高度交互式界面,從而使得作圖更加容易、更美觀,便於用戶能
夠做出各種有吸引力的統計圖表
• 高度相容 numpy 與 pandas
17
Data visualization (圖表類型: relplot)
• Visualizing statistical relationships
• Statistical analysis is a process of understanding how variables in a dataset
relate to each other and how those relationships depend on other variables.
• Visualization can be a core component of this process because, when data are
visualized properly, the human visual system can see trends and patterns that
indicate a relationship.
18
參考: https://www.cntofu.com/book/172/docs/10.md
Data visualization (圖表類型: relplot)
19
Outliner
探討 0 以上、以下的資料屬性
探討 Outliner 的數量與內容
趨勢
Data visualization (圖表類型: relplot)
20
Data visualization (圖表類型: relplot)
21
Data visualization (圖表類型: relplot)
22
Data visualization (圖表類型: relplot)
23
95% 信賴區間 Confidence interval (正負一個標準差之內)
kind=line
2009~2012年度銷售中位值
平均數會比中位數大,稱之為「右偏」型態、反之「左偏」
而平均數與中位數越接近時,代表分布越平均
2009~2012年度銷售平均值
Data visualization (圖表類型: relplot)
24
kind=line
疫情發生
隨著時間而變化的趨勢發展,比較前後銷售關係
Data visualization (圖表類型: relplot)
25
kind=line
Data visualization (圖表類型: relplot)
26
kind=line
col_wrap=4
產品A
產品B
產品C
運送方式
Data visualization (圖表類型: catplot)
• How to use different visual representations to show the relationship
between multiple variables in a dataset.
• We focused on cases where the main relationship was between two
numerical variables. If one of the main variables is categorical
(divided into discrete groups) it may be helpful to use a more
specialized approach to visualization
27
參考: https://www.cntofu.com/book/172/docs/13.md
Data visualization (圖表類型: catplot)
28
Data visualization (圖表類型: catplot)
29
Data visualization (圖表類型: catplot)
30
kind=box
左偏
右偏
Data visualization (圖表類型: catplot)
31
kind=box
Data visualization (圖表類型: catplot)
32
參考: Python 箱型圖/小提琴圖(Box/Violin Plot) - Wayne's Talk (waynestalk.com)
顯示出機率密度
(資料出現的機率)
Data visualization (圖表類型: catplot)
33
kind=violin
比較之間的胖瘦
Data visualization (圖表類型: catplot)
34
kind=bar
平均值
信賴區間
Data visualization (圖表類型: catplot)
35
kind=bar
Data visualization (圖表類型: catplot)
36
kind=point
Data visualization (圖表類型: catplot)
37
kind=point
Data visualization (圖表類型: displot)
• What range do the observations cover?
• Are they heavily skewness/kurtosis?
• Is there evidence for bimodality (雙峰)?
38
參考: https://www.cntofu.com/book/172/docs/24.md
雙峰 skewness 與 kurtosis 的計算?
Data visualization (圖表類型: distplot)
39
右偏
Data visualization (圖表類型: jointplot)
• Draw a plot of two variables with bivariate and univariate graphs.
41
Data visualization (圖表類型: jointplot)
42
數量分布
Data visualization (圖表類型: jointplot)
43
數量分布
練習
• 請執行下列程式碼
44
visualization.ipynb
作業(1)
• 練習 pandas 資料操作,請參考下列連結
• https://pandas.pydata.org/docs/user_guide/10min.html
• 開啟 hw01.ipynb,這是一個基本的 python 基本功夫的作業,
請務必一定要親自練習,並完成作業
47
作業(2)
• 研讀這個電子檔內所有章節,深化資料分析的基本功夫,最後,
依照 Chapter 9 內容 Case Study 分配報告
• Story_telling_of_data_homework.pdf
• 請務必將知識深化!
48
作業(3)
• 請透過 20221016_HW.csv 進行視覺化資料分析 (依照上課教過
的圖表分析與作業(2)學到的知識)
49

More Related Content

Similar to 2023 Data visualization using Python from scratch

Spiderweb項目簡報.pdf
Spiderweb項目簡報.pdfSpiderweb項目簡報.pdf
Spiderweb項目簡報.pdfSpiderweb
 
Report 106553012 - copy
Report 106553012 - copyReport 106553012 - copy
Report 106553012 - copyJacky Zou
 
逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构Denodo
 
云计算时代的新安全挑战与机会
云计算时代的新安全挑战与机会云计算时代的新安全挑战与机会
云计算时代的新安全挑战与机会ITband
 
Leverage Modern Enterprise Architecture To Speed Up Work Resumption
Leverage Modern Enterprise Architecture To Speed Up Work ResumptionLeverage Modern Enterprise Architecture To Speed Up Work Resumption
Leverage Modern Enterprise Architecture To Speed Up Work ResumptionDenodo
 
386 涂家网 互联网家装设计、造价平台
386 涂家网 互联网家装设计、造价平台386 涂家网 互联网家装设计、造价平台
386 涂家网 互联网家装设计、造价平台Rui (Nash) Yang
 
Manufacturing on Cloud- Applications and Discussions; 製造在雲端- 漫談智慧雲在製造產業的應用
Manufacturing on Cloud- Applications and Discussions; 製造在雲端- 漫談智慧雲在製造產業的應用Manufacturing on Cloud- Applications and Discussions; 製造在雲端- 漫談智慧雲在製造產業的應用
Manufacturing on Cloud- Applications and Discussions; 製造在雲端- 漫談智慧雲在製造產業的應用Yun-Yao Chen
 
借助数据虚拟化,实现数据网格架构
借助数据虚拟化,实现数据网格架构借助数据虚拟化,实现数据网格架构
借助数据虚拟化,实现数据网格架构Denodo
 
machine learning introduction
machine learning introduction machine learning introduction
machine learning introduction FEG
 
創新管理 雲端協同商務平台 V2.0
創新管理    雲端協同商務平台 V2.0創新管理    雲端協同商務平台 V2.0
創新管理 雲端協同商務平台 V2.0yaohung
 
大数据下的大表Join计算和优化
大数据下的大表Join计算和优化大数据下的大表Join计算和优化
大数据下的大表Join计算和优化huhai463127310
 
4_Regression_analysis.pdf
4_Regression_analysis.pdf4_Regression_analysis.pdf
4_Regression_analysis.pdfFEG
 
My house雲端社區服務平台營運計畫書(20131101)
My house雲端社區服務平台營運計畫書(20131101)My house雲端社區服務平台營運計畫書(20131101)
My house雲端社區服務平台營運計畫書(20131101)Jackie Liu
 
云计算可信评估方法研究
云计算可信评估方法研究云计算可信评估方法研究
云计算可信评估方法研究iamafan
 
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘Riquelme624
 
1_MySQL_20220307_0328.pptx
1_MySQL_20220307_0328.pptx1_MySQL_20220307_0328.pptx
1_MySQL_20220307_0328.pptxFEG
 
Big data, big deal ms it168文库
Big data, big deal ms it168文库Big data, big deal ms it168文库
Big data, big deal ms it168文库Accenture
 
Big data, big deal ms it168文库
Big data, big deal ms it168文库Big data, big deal ms it168文库
Big data, big deal ms it168文库Accenture
 
为什么选择游易帮
为什么选择游易帮为什么选择游易帮
为什么选择游易帮uehelper
 

Similar to 2023 Data visualization using Python from scratch (20)

Spiderweb項目簡報.pdf
Spiderweb項目簡報.pdfSpiderweb項目簡報.pdf
Spiderweb項目簡報.pdf
 
Report 106553012 - copy
Report 106553012 - copyReport 106553012 - copy
Report 106553012 - copy
 
逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构逻辑数据编织 – 构建先进的现代企业数据架构
逻辑数据编织 – 构建先进的现代企业数据架构
 
云计算时代的新安全挑战与机会
云计算时代的新安全挑战与机会云计算时代的新安全挑战与机会
云计算时代的新安全挑战与机会
 
Leverage Modern Enterprise Architecture To Speed Up Work Resumption
Leverage Modern Enterprise Architecture To Speed Up Work ResumptionLeverage Modern Enterprise Architecture To Speed Up Work Resumption
Leverage Modern Enterprise Architecture To Speed Up Work Resumption
 
386 涂家网 互联网家装设计、造价平台
386 涂家网 互联网家装设计、造价平台386 涂家网 互联网家装设计、造价平台
386 涂家网 互联网家装设计、造价平台
 
Manufacturing on Cloud- Applications and Discussions; 製造在雲端- 漫談智慧雲在製造產業的應用
Manufacturing on Cloud- Applications and Discussions; 製造在雲端- 漫談智慧雲在製造產業的應用Manufacturing on Cloud- Applications and Discussions; 製造在雲端- 漫談智慧雲在製造產業的應用
Manufacturing on Cloud- Applications and Discussions; 製造在雲端- 漫談智慧雲在製造產業的應用
 
借助数据虚拟化,实现数据网格架构
借助数据虚拟化,实现数据网格架构借助数据虚拟化,实现数据网格架构
借助数据虚拟化,实现数据网格架构
 
20150206 aic machine learning
20150206 aic machine learning20150206 aic machine learning
20150206 aic machine learning
 
machine learning introduction
machine learning introduction machine learning introduction
machine learning introduction
 
創新管理 雲端協同商務平台 V2.0
創新管理    雲端協同商務平台 V2.0創新管理    雲端協同商務平台 V2.0
創新管理 雲端協同商務平台 V2.0
 
大数据下的大表Join计算和优化
大数据下的大表Join计算和优化大数据下的大表Join计算和优化
大数据下的大表Join计算和优化
 
4_Regression_analysis.pdf
4_Regression_analysis.pdf4_Regression_analysis.pdf
4_Regression_analysis.pdf
 
My house雲端社區服務平台營運計畫書(20131101)
My house雲端社區服務平台營運計畫書(20131101)My house雲端社區服務平台營運計畫書(20131101)
My house雲端社區服務平台營運計畫書(20131101)
 
云计算可信评估方法研究
云计算可信评估方法研究云计算可信评估方法研究
云计算可信评估方法研究
 
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘云存储与虚拟化分论坛 基于云计算的海量数据挖掘
云存储与虚拟化分论坛 基于云计算的海量数据挖掘
 
1_MySQL_20220307_0328.pptx
1_MySQL_20220307_0328.pptx1_MySQL_20220307_0328.pptx
1_MySQL_20220307_0328.pptx
 
Big data, big deal ms it168文库
Big data, big deal ms it168文库Big data, big deal ms it168文库
Big data, big deal ms it168文库
 
Big data, big deal ms it168文库
Big data, big deal ms it168文库Big data, big deal ms it168文库
Big data, big deal ms it168文库
 
为什么选择游易帮
为什么选择游易帮为什么选择游易帮
为什么选择游易帮
 

More from FEG

Sequence Model pytorch at colab with gpu.pdf
Sequence Model pytorch at colab with gpu.pdfSequence Model pytorch at colab with gpu.pdf
Sequence Model pytorch at colab with gpu.pdfFEG
 
學院碩士班_非監督式學習_使用Orange3直接使用_分群_20240417.pdf
學院碩士班_非監督式學習_使用Orange3直接使用_分群_20240417.pdf學院碩士班_非監督式學習_使用Orange3直接使用_分群_20240417.pdf
學院碩士班_非監督式學習_使用Orange3直接使用_分群_20240417.pdfFEG
 
資料視覺化_透過Orange3進行_無須寫程式直接使用_碩士學程_202403.pdf
資料視覺化_透過Orange3進行_無須寫程式直接使用_碩士學程_202403.pdf資料視覺化_透過Orange3進行_無須寫程式直接使用_碩士學程_202403.pdf
資料視覺化_透過Orange3進行_無須寫程式直接使用_碩士學程_202403.pdfFEG
 
Pytorch cnn netowork introduction 20240318
Pytorch cnn netowork introduction 20240318Pytorch cnn netowork introduction 20240318
Pytorch cnn netowork introduction 20240318FEG
 
2023 Decision Tree analysis in business practices
2023 Decision Tree analysis in business practices2023 Decision Tree analysis in business practices
2023 Decision Tree analysis in business practicesFEG
 
2023 Clustering analysis using Python from scratch
2023 Clustering analysis using Python from scratch2023 Clustering analysis using Python from scratch
2023 Clustering analysis using Python from scratchFEG
 
2023 Supervised Learning for Orange3 from scratch
2023 Supervised Learning for Orange3 from scratch2023 Supervised Learning for Orange3 from scratch
2023 Supervised Learning for Orange3 from scratchFEG
 
2023 Supervised_Learning_Association_Rules
2023 Supervised_Learning_Association_Rules2023 Supervised_Learning_Association_Rules
2023 Supervised_Learning_Association_RulesFEG
 
202312 Exploration Data Analysis Visualization (English version)
202312 Exploration Data Analysis Visualization (English version)202312 Exploration Data Analysis Visualization (English version)
202312 Exploration Data Analysis Visualization (English version)FEG
 
202312 Exploration of Data Analysis Visualization
202312 Exploration of Data Analysis Visualization202312 Exploration of Data Analysis Visualization
202312 Exploration of Data Analysis VisualizationFEG
 
Transfer Learning (20230516)
Transfer Learning (20230516)Transfer Learning (20230516)
Transfer Learning (20230516)FEG
 
Image Classification (20230411)
Image Classification (20230411)Image Classification (20230411)
Image Classification (20230411)FEG
 
Google CoLab (20230321)
Google CoLab (20230321)Google CoLab (20230321)
Google CoLab (20230321)FEG
 
Supervised Learning
Supervised LearningSupervised Learning
Supervised LearningFEG
 
UnSupervised Learning Clustering
UnSupervised Learning ClusteringUnSupervised Learning Clustering
UnSupervised Learning ClusteringFEG
 
Data Visualization in Excel
Data Visualization in ExcelData Visualization in Excel
Data Visualization in ExcelFEG
 
6_Association_rule_碩士班第六次.pdf
6_Association_rule_碩士班第六次.pdf6_Association_rule_碩士班第六次.pdf
6_Association_rule_碩士班第六次.pdfFEG
 
5_Neural_network_碩士班第五次.pdf
5_Neural_network_碩士班第五次.pdf5_Neural_network_碩士班第五次.pdf
5_Neural_network_碩士班第五次.pdfFEG
 
3_Decision_tree.pdf
3_Decision_tree.pdf3_Decision_tree.pdf
3_Decision_tree.pdfFEG
 
2_Clustering.pdf
2_Clustering.pdf2_Clustering.pdf
2_Clustering.pdfFEG
 

More from FEG (20)

Sequence Model pytorch at colab with gpu.pdf
Sequence Model pytorch at colab with gpu.pdfSequence Model pytorch at colab with gpu.pdf
Sequence Model pytorch at colab with gpu.pdf
 
學院碩士班_非監督式學習_使用Orange3直接使用_分群_20240417.pdf
學院碩士班_非監督式學習_使用Orange3直接使用_分群_20240417.pdf學院碩士班_非監督式學習_使用Orange3直接使用_分群_20240417.pdf
學院碩士班_非監督式學習_使用Orange3直接使用_分群_20240417.pdf
 
資料視覺化_透過Orange3進行_無須寫程式直接使用_碩士學程_202403.pdf
資料視覺化_透過Orange3進行_無須寫程式直接使用_碩士學程_202403.pdf資料視覺化_透過Orange3進行_無須寫程式直接使用_碩士學程_202403.pdf
資料視覺化_透過Orange3進行_無須寫程式直接使用_碩士學程_202403.pdf
 
Pytorch cnn netowork introduction 20240318
Pytorch cnn netowork introduction 20240318Pytorch cnn netowork introduction 20240318
Pytorch cnn netowork introduction 20240318
 
2023 Decision Tree analysis in business practices
2023 Decision Tree analysis in business practices2023 Decision Tree analysis in business practices
2023 Decision Tree analysis in business practices
 
2023 Clustering analysis using Python from scratch
2023 Clustering analysis using Python from scratch2023 Clustering analysis using Python from scratch
2023 Clustering analysis using Python from scratch
 
2023 Supervised Learning for Orange3 from scratch
2023 Supervised Learning for Orange3 from scratch2023 Supervised Learning for Orange3 from scratch
2023 Supervised Learning for Orange3 from scratch
 
2023 Supervised_Learning_Association_Rules
2023 Supervised_Learning_Association_Rules2023 Supervised_Learning_Association_Rules
2023 Supervised_Learning_Association_Rules
 
202312 Exploration Data Analysis Visualization (English version)
202312 Exploration Data Analysis Visualization (English version)202312 Exploration Data Analysis Visualization (English version)
202312 Exploration Data Analysis Visualization (English version)
 
202312 Exploration of Data Analysis Visualization
202312 Exploration of Data Analysis Visualization202312 Exploration of Data Analysis Visualization
202312 Exploration of Data Analysis Visualization
 
Transfer Learning (20230516)
Transfer Learning (20230516)Transfer Learning (20230516)
Transfer Learning (20230516)
 
Image Classification (20230411)
Image Classification (20230411)Image Classification (20230411)
Image Classification (20230411)
 
Google CoLab (20230321)
Google CoLab (20230321)Google CoLab (20230321)
Google CoLab (20230321)
 
Supervised Learning
Supervised LearningSupervised Learning
Supervised Learning
 
UnSupervised Learning Clustering
UnSupervised Learning ClusteringUnSupervised Learning Clustering
UnSupervised Learning Clustering
 
Data Visualization in Excel
Data Visualization in ExcelData Visualization in Excel
Data Visualization in Excel
 
6_Association_rule_碩士班第六次.pdf
6_Association_rule_碩士班第六次.pdf6_Association_rule_碩士班第六次.pdf
6_Association_rule_碩士班第六次.pdf
 
5_Neural_network_碩士班第五次.pdf
5_Neural_network_碩士班第五次.pdf5_Neural_network_碩士班第五次.pdf
5_Neural_network_碩士班第五次.pdf
 
3_Decision_tree.pdf
3_Decision_tree.pdf3_Decision_tree.pdf
3_Decision_tree.pdf
 
2_Clustering.pdf
2_Clustering.pdf2_Clustering.pdf
2_Clustering.pdf
 

2023 Data visualization using Python from scratch