SlideShare a Scribd company logo
Tech Podcast Night #4
Analysis your data easier with EDA.
關於我, Mia
工作。
#Data Scientist
商業分析:透過數據分析協助優化行銷與業務決策。
機器學習與深度學習:電腦視覺、影像辨識。
#Technical Sharing / Lecturing
資料視覺化(R), Azure Machine Learning Studio
#Python, R, Azure Data Platform
#Community
從Microsoft Sanddance 和
Azure Machine Learning Studio 開
始講起...
為什麼會想介紹今天的主題
Agenda
前言
為什麼會有EDA,
適合用在哪些場景?
有哪些指標可以看?代表什麼?
Data Scientist的工作內容來說。
商業分析與機器學習面來說。
數值探索。
圖像探索。
透過例子來看。
在這個case裡面我們想要解決什麼
問題?所以一開始我們可以從哪些
metric去了解這筆資料?
其他相關的例子。
前言
EDA
Exploratory Data Analysis
探索式資料分析
背景
1977年約翰•圖克(John W. Tukey)寫的“探索性資料
分析”一書中已經創造了這個詞並發展了這個領域。
概括來講,EDA用於理解和總結資料集的 內容,通常
用於調查特定問題或更高級的建模。 EDA通常很大
程度上依賴於可視化資料來評估模式 並利用一些定
量方法來描述資料。
EDA
Exploratory Data Analysis
探索式資料分析
使用情境
- 以EDA做一份資料視覺化的報告
- 以EDA做建模分析的暖身操
EDA
Exploratory Data Analysis
探索式資料分析
資料科學家工作內容
- 80% of data science is
sourcing, cleaning, and preparing the data
資料診療室
- Build “data diagnostic” dashboard
- What’s interesting?
- What’s relevant for this use case?
- Any anomalies? Are thresholds useful?
- Stats count by X Y
數值探索
Non-graphical EDA
Single Quantitative Variable
單一定量變數
舉例
Central Location,
Spread, Shape, Outliers.
Single Categorical Variable
單一類別變數
舉例
Gender, Race, Country
How does the distribution of
the DV vary as the IVs change?
DV
(Dependent Variable, 應變數)
IV
(Independent Variables, 自變項)
Non-graphical EDA What are we are looking for?
Single Quantitative Variable
單一定量變數
指標
Standard statistics
Mean,
Standard deviation,
Variance
Robust statistics
Median
Others
Q1, Q3,
Skewness, Kurtosis
Single Categorical Variable
單一類別變數
指標
Distribution of Categories
Frequency table
% of total
Statistics by category
How does the distribution of
the DV vary as the IVs change?
指標
Correlation
Missing Value
圖像探索
Graphical EDA
Quantitative Univariate data
舉例
Side and Leaf plot
Frequency Histogram
Boxplot
Categorical Univariate Data
舉例
Bar graph
Pie chart
Multiple Variables
舉例
Scatterplot
Graphical EDA
Quantitative Univariate data
舉例
Side and Leaf plot
Frequency Histogram
Boxplot
Graphical EDA
Quantitative Univariate data
舉例
Side and Leaf plot
Frequency Histogram
Boxplot
Graphical EDA
Quantitative Univariate data
舉例
Side and Leaf plot
Frequency Histogram
Boxplot
Graphical EDA
Categorical Univariate Data
舉例
Bar graph
Pie chart
Graphical EDA
Multiple Variables
舉例
Scatterplot
Demo
Azure Machine Learning Studio
Titanic DataSet
2. Chose this module
1.Visualize
3. Chose this module
Summary
前言
EDA 的使用場景
數值探索
針對單一變量或多變量,
我們會想要看哪些數 值。
圖像探索
透過圖像化探索,可以探
索到哪些單變數與多變數
的可能性?
Demo
Azure ML Studio
Microsoft Sanddance
Action Item
手邊的資料集有哪些?
今日的延伸閱讀?
Action Item
聊天或QA。
#Data Scientist
#Technical Sharing / Lecturing
#Python, R, Azure Data Platform
#Community
Reference。
本投影片的Reference
1.Experimental Design for Behavioral
and Social Sciences, from Stat CMU
2.Summarize Data
3.Compute Elementary Statistics
4.Exploratory Data Analysis :Billboard
Hot 100 data for the year 2000
5.Read More
台大 cs+x 期末報告
台大校園用電分析
台大管理學院的迷思
台大交換學生知多少
選擇大學- 大學條件分析
其他。
Email
mia5419@mail.com
facebook.com/mia5419
訂閱臉書:TechPodcastNight
感謝
Tech Podcast Night
下次見 !

More Related Content

What's hot

音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
Naoya Takahashi
 
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
Seiichi Uchida
 
経営とアート 山口周 世界のエリートはなぜ「美意識」を鍛えるのか?要約しながら学ぶ
経営とアート 山口周 世界のエリートはなぜ「美意識」を鍛えるのか?要約しながら学ぶ経営とアート 山口周 世界のエリートはなぜ「美意識」を鍛えるのか?要約しながら学ぶ
経営とアート 山口周 世界のエリートはなぜ「美意識」を鍛えるのか?要約しながら学ぶ
shunsuke takama
 
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
Toru Tamaki
 
第7回WBAシンポジウム:予測符号化モデルとしての 深層予測学習とロボット知能化
第7回WBAシンポジウム:予測符号化モデルとしての 深層予測学習とロボット知能化第7回WBAシンポジウム:予測符号化モデルとしての 深層予測学習とロボット知能化
第7回WBAシンポジウム:予測符号化モデルとしての 深層予測学習とロボット知能化
The Whole Brain Architecture Initiative
 
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
Deep Learning JP
 
Taking a Deeper Look at the Inverse Compositional Algorithm
Taking a Deeper Look at the Inverse Compositional AlgorithmTaking a Deeper Look at the Inverse Compositional Algorithm
Taking a Deeper Look at the Inverse Compositional Algorithm
Mai Nishimura
 
畳み込みLstm
畳み込みLstm畳み込みLstm
畳み込みLstm
tak9029
 
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布
Seiichi Uchida
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
Takumi Ohkuma
 
Unreal Engine を用いた、駐車スペース検知のための学習データ生成
Unreal Engine を用いた、駐車スペース検知のための学習データ生成Unreal Engine を用いた、駐車スペース検知のための学習データ生成
Unreal Engine を用いた、駐車スペース検知のための学習データ生成
Silicon Studio Corporation
 
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
ARISE analytics
 
Tokyo r7 sem_20100724
Tokyo r7 sem_20100724Tokyo r7 sem_20100724
Tokyo r7 sem_20100724
osamu morimoto
 
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラムデータサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
Seiichi Uchida
 
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
Seiichi Uchida
 
(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展
Takumi Ohkuma
 
責任あるAI ガバナンスガイドブック | Accenture Japan
責任あるAI ガバナンスガイドブック | Accenture Japan責任あるAI ガバナンスガイドブック | Accenture Japan
責任あるAI ガバナンスガイドブック | Accenture Japan
Accenture Japan
 
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Yusuke Uchida
 
Search tree,Tree and binary tree and heap tree
Search tree,Tree  and binary tree and heap treeSearch tree,Tree  and binary tree and heap tree
Search tree,Tree and binary tree and heap tree
zia eagle
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
 

What's hot (20)

音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
 
経営とアート 山口周 世界のエリートはなぜ「美意識」を鍛えるのか?要約しながら学ぶ
経営とアート 山口周 世界のエリートはなぜ「美意識」を鍛えるのか?要約しながら学ぶ経営とアート 山口周 世界のエリートはなぜ「美意識」を鍛えるのか?要約しながら学ぶ
経営とアート 山口周 世界のエリートはなぜ「美意識」を鍛えるのか?要約しながら学ぶ
 
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
論文紹介:Temporal Action Segmentation: An Analysis of Modern Techniques
 
第7回WBAシンポジウム:予測符号化モデルとしての 深層予測学習とロボット知能化
第7回WBAシンポジウム:予測符号化モデルとしての 深層予測学習とロボット知能化第7回WBAシンポジウム:予測符号化モデルとしての 深層予測学習とロボット知能化
第7回WBAシンポジウム:予測符号化モデルとしての 深層予測学習とロボット知能化
 
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
 
Taking a Deeper Look at the Inverse Compositional Algorithm
Taking a Deeper Look at the Inverse Compositional AlgorithmTaking a Deeper Look at the Inverse Compositional Algorithm
Taking a Deeper Look at the Inverse Compositional Algorithm
 
畳み込みLstm
畳み込みLstm畳み込みLstm
畳み込みLstm
 
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
 
Unreal Engine を用いた、駐車スペース検知のための学習データ生成
Unreal Engine を用いた、駐車スペース検知のための学習データ生成Unreal Engine を用いた、駐車スペース検知のための学習データ生成
Unreal Engine を用いた、駐車スペース検知のための学習データ生成
 
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
 
Tokyo r7 sem_20100724
Tokyo r7 sem_20100724Tokyo r7 sem_20100724
Tokyo r7 sem_20100724
 
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラムデータサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
 
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
 
(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展(2021年8月版)深層学習によるImage Classificaitonの発展
(2021年8月版)深層学習によるImage Classificaitonの発展
 
責任あるAI ガバナンスガイドブック | Accenture Japan
責任あるAI ガバナンスガイドブック | Accenture Japan責任あるAI ガバナンスガイドブック | Accenture Japan
責任あるAI ガバナンスガイドブック | Accenture Japan
 
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
 
Search tree,Tree and binary tree and heap tree
Search tree,Tree  and binary tree and heap treeSearch tree,Tree  and binary tree and heap tree
Search tree,Tree and binary tree and heap tree
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 

Similar to 如何透過資料視覺化讓你的分析更輕鬆

人機協作迎向Ai+世代
人機協作迎向Ai+世代人機協作迎向Ai+世代
人機協作迎向Ai+世代
Steven Tseng
 
Skymind - Udacity China presentation
Skymind - Udacity China presentationSkymind - Udacity China presentation
Skymind - Udacity China presentation
Adam Gibson
 
20150206 aic machine learning
20150206 aic machine learning20150206 aic machine learning
20150206 aic machine learning
Meng-Ru (Raymond) Tsai
 
開場致詞 -- 2014 台灣資料科學愛好者年會
開場致詞 -- 2014 台灣資料科學愛好者年會開場致詞 -- 2014 台灣資料科學愛好者年會
開場致詞 -- 2014 台灣資料科學愛好者年會
台灣資料科學年會
 
Data Science: Z > B 的資料科學
Data Science: Z > B 的資料科學Data Science: Z > B 的資料科學
Data Science: Z > B 的資料科學
ckliu
 
思翱倍力:對於大數據應用的十個觀點與省思20160525
思翱倍力:對於大數據應用的十個觀點與省思20160525思翱倍力:對於大數據應用的十個觀點與省思20160525
思翱倍力:對於大數據應用的十個觀點與省思20160525
張大明 Ta-Ming Chang
 
iOS 10 HCI: Information Architecture
iOS 10 HCI: Information ArchitectureiOS 10 HCI: Information Architecture
iOS 10 HCI: Information Architecture
WANGCHOU LU
 
数据科学运营:企业人工智能之旅
数据科学运营:企业人工智能之旅数据科学运营:企业人工智能之旅
数据科学运营:企业人工智能之旅
Denodo
 
How to run an AI Project @pixnet
How to run an AI Project @pixnetHow to run an AI Project @pixnet
How to run an AI Project @pixnet
晨揚 施
 
演示高手:Ppt制作与演示技巧(学习教练 肖刚)
演示高手:Ppt制作与演示技巧(学习教练 肖刚)演示高手:Ppt制作与演示技巧(学习教练 肖刚)
演示高手:Ppt制作与演示技巧(学习教练 肖刚)
知行堂(zxt123.com)
 
雲的萬物論 - 讓 AI 為企業所用
雲的萬物論 - 讓 AI 為企業所用雲的萬物論 - 讓 AI 為企業所用
雲的萬物論 - 讓 AI 為企業所用
Michael Chi
 
第二节【课后作业】.pptx
第二节【课后作业】.pptx第二节【课后作业】.pptx
第二节【课后作业】.pptx
YangXu198004
 
20160818巨量資料的分析現況與展望(國發會) 張大明v2.1
20160818巨量資料的分析現況與展望(國發會) 張大明v2.120160818巨量資料的分析現況與展望(國發會) 張大明v2.1
20160818巨量資料的分析現況與展望(國發會) 張大明v2.1
張大明 Ta-Ming Chang
 
service design 20221118
service design 20221118service design 20221118
service design 20221118
Winny Wang
 
簡報/專案管理/數位行銷/文案 作品集
簡報/專案管理/數位行銷/文案 作品集簡報/專案管理/數位行銷/文案 作品集
簡報/專案管理/數位行銷/文案 作品集
詠婕 杜
 
亞太數位創業拉力營-創業智庫召集說明與介紹 2070715
亞太數位創業拉力營-創業智庫召集說明與介紹 2070715亞太數位創業拉力營-創業智庫召集說明與介紹 2070715
亞太數位創業拉力營-創業智庫召集說明與介紹 2070715
張大明 Ta-Ming Chang
 
20170414大數據驅動之創新服務專案實務—以人類學家大數據探索觀點
20170414大數據驅動之創新服務專案實務—以人類學家大數據探索觀點20170414大數據驅動之創新服務專案實務—以人類學家大數據探索觀點
20170414大數據驅動之創新服務專案實務—以人類學家大數據探索觀點
張大明 Ta-Ming Chang
 
那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景
Etu Solution
 

Similar to 如何透過資料視覺化讓你的分析更輕鬆 (20)

人機協作迎向Ai+世代
人機協作迎向Ai+世代人機協作迎向Ai+世代
人機協作迎向Ai+世代
 
Skymind - Udacity China presentation
Skymind - Udacity China presentationSkymind - Udacity China presentation
Skymind - Udacity China presentation
 
20150206 aic machine learning
20150206 aic machine learning20150206 aic machine learning
20150206 aic machine learning
 
開場致詞 -- 2014 台灣資料科學愛好者年會
開場致詞 -- 2014 台灣資料科學愛好者年會開場致詞 -- 2014 台灣資料科學愛好者年會
開場致詞 -- 2014 台灣資料科學愛好者年會
 
Data Science: Z > B 的資料科學
Data Science: Z > B 的資料科學Data Science: Z > B 的資料科學
Data Science: Z > B 的資料科學
 
思翱倍力:對於大數據應用的十個觀點與省思20160525
思翱倍力:對於大數據應用的十個觀點與省思20160525思翱倍力:對於大數據應用的十個觀點與省思20160525
思翱倍力:對於大數據應用的十個觀點與省思20160525
 
iOS 10 HCI: Information Architecture
iOS 10 HCI: Information ArchitectureiOS 10 HCI: Information Architecture
iOS 10 HCI: Information Architecture
 
搜尋達人及市場調查
搜尋達人及市場調查搜尋達人及市場調查
搜尋達人及市場調查
 
数据科学运营:企业人工智能之旅
数据科学运营:企业人工智能之旅数据科学运营:企业人工智能之旅
数据科学运营:企业人工智能之旅
 
How to run an AI Project @pixnet
How to run an AI Project @pixnetHow to run an AI Project @pixnet
How to run an AI Project @pixnet
 
Ptmind
PtmindPtmind
Ptmind
 
演示高手:Ppt制作与演示技巧(学习教练 肖刚)
演示高手:Ppt制作与演示技巧(学习教练 肖刚)演示高手:Ppt制作与演示技巧(学习教练 肖刚)
演示高手:Ppt制作与演示技巧(学习教练 肖刚)
 
雲的萬物論 - 讓 AI 為企業所用
雲的萬物論 - 讓 AI 為企業所用雲的萬物論 - 讓 AI 為企業所用
雲的萬物論 - 讓 AI 為企業所用
 
第二节【课后作业】.pptx
第二节【课后作业】.pptx第二节【课后作业】.pptx
第二节【课后作业】.pptx
 
20160818巨量資料的分析現況與展望(國發會) 張大明v2.1
20160818巨量資料的分析現況與展望(國發會) 張大明v2.120160818巨量資料的分析現況與展望(國發會) 張大明v2.1
20160818巨量資料的分析現況與展望(國發會) 張大明v2.1
 
service design 20221118
service design 20221118service design 20221118
service design 20221118
 
簡報/專案管理/數位行銷/文案 作品集
簡報/專案管理/數位行銷/文案 作品集簡報/專案管理/數位行銷/文案 作品集
簡報/專案管理/數位行銷/文案 作品集
 
亞太數位創業拉力營-創業智庫召集說明與介紹 2070715
亞太數位創業拉力營-創業智庫召集說明與介紹 2070715亞太數位創業拉力營-創業智庫召集說明與介紹 2070715
亞太數位創業拉力營-創業智庫召集說明與介紹 2070715
 
20170414大數據驅動之創新服務專案實務—以人類學家大數據探索觀點
20170414大數據驅動之創新服務專案實務—以人類學家大數據探索觀點20170414大數據驅動之創新服務專案實務—以人類學家大數據探索觀點
20170414大數據驅動之創新服務專案實務—以人類學家大數據探索觀點
 
那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景
 

如何透過資料視覺化讓你的分析更輕鬆