SlideShare a Scribd company logo
1 of 23
Download to read offline
Tech Podcast Night #4
Analysis your data easier with EDA.
關於我, Mia
工作。
#Data Scientist
商業分析:透過數據分析協助優化行銷與業務決策。
機器學習與深度學習:電腦視覺、影像辨識。
#Technical Sharing / Lecturing
資料視覺化(R), Azure Machine Learning Studio
#Python, R, Azure Data Platform
#Community
從Microsoft Sanddance 和
Azure Machine Learning Studio 開
始講起...
為什麼會想介紹今天的主題
Agenda
前言
為什麼會有EDA,
適合用在哪些場景?
有哪些指標可以看?代表什麼?
Data Scientist的工作內容來說。
商業分析與機器學習面來說。
數值探索。
圖像探索。
透過例子來看。
在這個case裡面我們想要解決什麼
問題?所以一開始我們可以從哪些
metric去了解這筆資料?
其他相關的例子。
前言
EDA
Exploratory Data Analysis
探索式資料分析
背景
1977年約翰•圖克(John W. Tukey)寫的“探索性資料
分析”一書中已經創造了這個詞並發展了這個領域。
概括來講,EDA用於理解和總結資料集的 內容,通常
用於調查特定問題或更高級的建模。 EDA通常很大
程度上依賴於可視化資料來評估模式 並利用一些定
量方法來描述資料。
EDA
Exploratory Data Analysis
探索式資料分析
使用情境
- 以EDA做一份資料視覺化的報告
- 以EDA做建模分析的暖身操
EDA
Exploratory Data Analysis
探索式資料分析
資料科學家工作內容
- 80% of data science is
sourcing, cleaning, and preparing the data
資料診療室
- Build “data diagnostic” dashboard
- What’s interesting?
- What’s relevant for this use case?
- Any anomalies? Are thresholds useful?
- Stats count by X Y
數值探索
Non-graphical EDA
Single Quantitative Variable
單一定量變數
舉例
Central Location,
Spread, Shape, Outliers.
Single Categorical Variable
單一類別變數
舉例
Gender, Race, Country
How does the distribution of
the DV vary as the IVs change?
DV
(Dependent Variable, 應變數)
IV
(Independent Variables, 自變項)
Non-graphical EDA What are we are looking for?
Single Quantitative Variable
單一定量變數
指標
Standard statistics
Mean,
Standard deviation,
Variance
Robust statistics
Median
Others
Q1, Q3,
Skewness, Kurtosis
Single Categorical Variable
單一類別變數
指標
Distribution of Categories
Frequency table
% of total
Statistics by category
How does the distribution of
the DV vary as the IVs change?
指標
Correlation
Missing Value
圖像探索
Graphical EDA
Quantitative Univariate data
舉例
Side and Leaf plot
Frequency Histogram
Boxplot
Categorical Univariate Data
舉例
Bar graph
Pie chart
Multiple Variables
舉例
Scatterplot
Graphical EDA
Quantitative Univariate data
舉例
Side and Leaf plot
Frequency Histogram
Boxplot
Graphical EDA
Quantitative Univariate data
舉例
Side and Leaf plot
Frequency Histogram
Boxplot
Graphical EDA
Quantitative Univariate data
舉例
Side and Leaf plot
Frequency Histogram
Boxplot
Graphical EDA
Categorical Univariate Data
舉例
Bar graph
Pie chart
Graphical EDA
Multiple Variables
舉例
Scatterplot
Demo
Azure Machine Learning Studio
Titanic DataSet
2. Chose this module
1.Visualize
3. Chose this module
Summary
前言
EDA 的使用場景
數值探索
針對單一變量或多變量,
我們會想要看哪些數 值。
圖像探索
透過圖像化探索,可以探
索到哪些單變數與多變數
的可能性?
Demo
Azure ML Studio
Microsoft Sanddance
Action Item
手邊的資料集有哪些?
今日的延伸閱讀?
Action Item
聊天或QA。
#Data Scientist
#Technical Sharing / Lecturing
#Python, R, Azure Data Platform
#Community
Reference。
本投影片的Reference
1.Experimental Design for Behavioral
and Social Sciences, from Stat CMU
2.Summarize Data
3.Compute Elementary Statistics
4.Exploratory Data Analysis :Billboard
Hot 100 data for the year 2000
5.Read More
台大 cs+x 期末報告
台大校園用電分析
台大管理學院的迷思
台大交換學生知多少
選擇大學- 大學條件分析
其他。
Email
mia5419@mail.com
facebook.com/mia5419
訂閱臉書:TechPodcastNight
感謝
Tech Podcast Night
下次見 !

More Related Content

What's hot

メトリクスを用いたソフトウェア品質定量評価・改善 (GQM, Metrics, ET2013)
メトリクスを用いたソフトウェア品質定量評価・改善 (GQM, Metrics, ET2013)メトリクスを用いたソフトウェア品質定量評価・改善 (GQM, Metrics, ET2013)
メトリクスを用いたソフトウェア品質定量評価・改善 (GQM, Metrics, ET2013)
Hironori Washizaki
 

What's hot (20)

Boketeのグロースハック~referralはギョウザである編~
Boketeのグロースハック~referralはギョウザである編~Boketeのグロースハック~referralはギョウザである編~
Boketeのグロースハック~referralはギョウザである編~
 
データプロダクト開発を成功に導くには
データプロダクト開発を成功に導くにはデータプロダクト開発を成功に導くには
データプロダクト開発を成功に導くには
 
カネとAgile(大企業新規事業編) #rsgt2021
カネとAgile(大企業新規事業編) #rsgt2021カネとAgile(大企業新規事業編) #rsgt2021
カネとAgile(大企業新規事業編) #rsgt2021
 
Watson knowledge studio 紹介 - あなたの知識をWatson に教え込む!
Watson knowledge studio 紹介 - あなたの知識をWatson に教え込む!Watson knowledge studio 紹介 - あなたの知識をWatson に教え込む!
Watson knowledge studio 紹介 - あなたの知識をWatson に教え込む!
 
M3・SPBUpresentation‗2021年5月更新
M3・SPBUpresentation‗2021年5月更新M3・SPBUpresentation‗2021年5月更新
M3・SPBUpresentation‗2021年5月更新
 
Social Restart 2023: Eliška Michálková - Prezidentské volby v prostředí sociá...
Social Restart 2023: Eliška Michálková - Prezidentské volby v prostředí sociá...Social Restart 2023: Eliška Michálková - Prezidentské volby v prostředí sociá...
Social Restart 2023: Eliška Michálková - Prezidentské volby v prostředí sociá...
 
Social Restart 2023: Karolína Kachyňová - Jak získávat zákazníky pomocí profi...
Social Restart 2023: Karolína Kachyňová - Jak získávat zákazníky pomocí profi...Social Restart 2023: Karolína Kachyňová - Jak získávat zákazníky pomocí profi...
Social Restart 2023: Karolína Kachyňová - Jak získávat zákazníky pomocí profi...
 
データサイエンティストとエンジニア 両者が幸せになれる機械学習基盤を求めて
データサイエンティストとエンジニア 両者が幸せになれる機械学習基盤を求めてデータサイエンティストとエンジニア 両者が幸せになれる機械学習基盤を求めて
データサイエンティストとエンジニア 両者が幸せになれる機械学習基盤を求めて
 
Brand Restart 2023: Boris Rajdl a Jan Čapek - Od myslivce k gentlemanovi: sku...
Brand Restart 2023: Boris Rajdl a Jan Čapek - Od myslivce k gentlemanovi: sku...Brand Restart 2023: Boris Rajdl a Jan Čapek - Od myslivce k gentlemanovi: sku...
Brand Restart 2023: Boris Rajdl a Jan Čapek - Od myslivce k gentlemanovi: sku...
 
Part 0.5: 事例を中心としたユースケース (製造リファレンス・アーキテクチャ勉強会)
Part 0.5: 事例を中心としたユースケース (製造リファレンス・アーキテクチャ勉強会)Part 0.5: 事例を中心としたユースケース (製造リファレンス・アーキテクチャ勉強会)
Part 0.5: 事例を中心としたユースケース (製造リファレンス・アーキテクチャ勉強会)
 
Unityで音声認識
Unityで音声認識Unityで音声認識
Unityで音声認識
 
リーンスタートアップ実践者によるSDGs事業立ち上げ支援の取り組み
リーンスタートアップ実践者によるSDGs事業立ち上げ支援の取り組みリーンスタートアップ実践者によるSDGs事業立ち上げ支援の取り組み
リーンスタートアップ実践者によるSDGs事業立ち上げ支援の取り組み
 
メトリクスを用いたソフトウェア品質定量評価・改善 (GQM, Metrics, ET2013)
メトリクスを用いたソフトウェア品質定量評価・改善 (GQM, Metrics, ET2013)メトリクスを用いたソフトウェア品質定量評価・改善 (GQM, Metrics, ET2013)
メトリクスを用いたソフトウェア品質定量評価・改善 (GQM, Metrics, ET2013)
 
会社・プログラム説明資料(採用サイト向け) 202203
会社・プログラム説明資料(採用サイト向け) 202203会社・プログラム説明資料(採用サイト向け) 202203
会社・プログラム説明資料(採用サイト向け) 202203
 
カヤックコピー部のコピー講座
カヤックコピー部のコピー講座カヤックコピー部のコピー講座
カヤックコピー部のコピー講座
 
法政大学 MBA 中小企業向けITとの付き合うコツ
法政大学 MBA 中小企業向けITとの付き合うコツ法政大学 MBA 中小企業向けITとの付き合うコツ
法政大学 MBA 中小企業向けITとの付き合うコツ
 
Data Restart 2023: Václav Ráš - 10 tipů, jak pracovat s BigQuery
Data Restart 2023: Václav Ráš - 10 tipů, jak pracovat s BigQueryData Restart 2023: Václav Ráš - 10 tipů, jak pracovat s BigQuery
Data Restart 2023: Václav Ráš - 10 tipů, jak pracovat s BigQuery
 
RedmineのFAQとアンチパターン集
RedmineのFAQとアンチパターン集RedmineのFAQとアンチパターン集
RedmineのFAQとアンチパターン集
 
KPTとKPTA
KPTとKPTAKPTとKPTA
KPTとKPTA
 
伝わるプレゼンをする方法
伝わるプレゼンをする方法伝わるプレゼンをする方法
伝わるプレゼンをする方法
 

Similar to 如何透過資料視覺化讓你的分析更輕鬆

思翱倍力:對於大數據應用的十個觀點與省思20160525
思翱倍力:對於大數據應用的十個觀點與省思20160525思翱倍力:對於大數據應用的十個觀點與省思20160525
思翱倍力:對於大數據應用的十個觀點與省思20160525
張大明 Ta-Ming Chang
 

Similar to 如何透過資料視覺化讓你的分析更輕鬆 (20)

人機協作迎向Ai+世代
人機協作迎向Ai+世代人機協作迎向Ai+世代
人機協作迎向Ai+世代
 
Skymind - Udacity China presentation
Skymind - Udacity China presentationSkymind - Udacity China presentation
Skymind - Udacity China presentation
 
20150206 aic machine learning
20150206 aic machine learning20150206 aic machine learning
20150206 aic machine learning
 
開場致詞 -- 2014 台灣資料科學愛好者年會
開場致詞 -- 2014 台灣資料科學愛好者年會開場致詞 -- 2014 台灣資料科學愛好者年會
開場致詞 -- 2014 台灣資料科學愛好者年會
 
Data Science: Z > B 的資料科學
Data Science: Z > B 的資料科學Data Science: Z > B 的資料科學
Data Science: Z > B 的資料科學
 
思翱倍力:對於大數據應用的十個觀點與省思20160525
思翱倍力:對於大數據應用的十個觀點與省思20160525思翱倍力:對於大數據應用的十個觀點與省思20160525
思翱倍力:對於大數據應用的十個觀點與省思20160525
 
iOS 10 HCI: Information Architecture
iOS 10 HCI: Information ArchitectureiOS 10 HCI: Information Architecture
iOS 10 HCI: Information Architecture
 
搜尋達人及市場調查
搜尋達人及市場調查搜尋達人及市場調查
搜尋達人及市場調查
 
数据科学运营:企业人工智能之旅
数据科学运营:企业人工智能之旅数据科学运营:企业人工智能之旅
数据科学运营:企业人工智能之旅
 
How to run an AI Project @pixnet
How to run an AI Project @pixnetHow to run an AI Project @pixnet
How to run an AI Project @pixnet
 
Ptmind
PtmindPtmind
Ptmind
 
演示高手:Ppt制作与演示技巧(学习教练 肖刚)
演示高手:Ppt制作与演示技巧(学习教练 肖刚)演示高手:Ppt制作与演示技巧(学习教练 肖刚)
演示高手:Ppt制作与演示技巧(学习教练 肖刚)
 
雲的萬物論 - 讓 AI 為企業所用
雲的萬物論 - 讓 AI 為企業所用雲的萬物論 - 讓 AI 為企業所用
雲的萬物論 - 讓 AI 為企業所用
 
第二节【课后作业】.pptx
第二节【课后作业】.pptx第二节【课后作业】.pptx
第二节【课后作业】.pptx
 
20160818巨量資料的分析現況與展望(國發會) 張大明v2.1
20160818巨量資料的分析現況與展望(國發會) 張大明v2.120160818巨量資料的分析現況與展望(國發會) 張大明v2.1
20160818巨量資料的分析現況與展望(國發會) 張大明v2.1
 
service design 20221118
service design 20221118service design 20221118
service design 20221118
 
簡報/專案管理/數位行銷/文案 作品集
簡報/專案管理/數位行銷/文案 作品集簡報/專案管理/數位行銷/文案 作品集
簡報/專案管理/數位行銷/文案 作品集
 
亞太數位創業拉力營-創業智庫召集說明與介紹 2070715
亞太數位創業拉力營-創業智庫召集說明與介紹 2070715亞太數位創業拉力營-創業智庫召集說明與介紹 2070715
亞太數位創業拉力營-創業智庫召集說明與介紹 2070715
 
20170414大數據驅動之創新服務專案實務—以人類學家大數據探索觀點
20170414大數據驅動之創新服務專案實務—以人類學家大數據探索觀點20170414大數據驅動之創新服務專案實務—以人類學家大數據探索觀點
20170414大數據驅動之創新服務專案實務—以人類學家大數據探索觀點
 
那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景那些你知道的,但還沒看過的 Big Data 風景
那些你知道的,但還沒看過的 Big Data 風景
 

如何透過資料視覺化讓你的分析更輕鬆