SlideShare a Scribd company logo
1 of 45
第 4 章
常態分佈
第一節 常態分 的特性 (佈 1 )
• 如果調 台灣查 1000 位成年男性的身高,將會
發現身高特別高和特別低的人佔極少數,絕大
多數的人身高都在中間(例如 170 公分)附近
。
• 如果這 1000 人的平均身高是 170 公分,那麼
身高離 170 公分越遠的人,所佔的比例就越
少。簡單的說,大略呈現以 170 公分為中心,
並往兩旁遞減的分 圖。如下圖所示。佈
0
10
20
30
40
50
60
70
80
90
150 155 160 165 170 175 180 185 190
身 高
人數
第一節 常態分 的特性 (佈 2 )
• 如果調 的是體重、收入、智力等變項,也很查
可能出現類似上圖的分 。佈
• 上圖的分 是間斷的,可是理論上身高是連續佈
的,因為任何兩個人之間,存在第三個人,其
身高介在他們之間。
• 如果調 更多的人(如查 10 萬人),那麼上圖
的長條圖中間斷現象逐漸會消除。一旦調 人查
數非常之大,那麼上圖的長條圖會變成平滑的
曲線圖,如下圖中的平滑曲線所示。
0
10
20
30
40
50
60
70
80
90
150 155 160 165 170 175 180 185 190
身 高
人數
第一節 常態分 的特性 (佈 3 )
• 上圖的平滑線左右對稱,好像一座山,或者類
似「銅鐘」的形狀。也就是中間最高,往兩旁
遞減,這就是所謂的常態分 (佈 normal
distribution )。
• 由於是左右對稱,且由中間往兩旁遞減,因此
中心點最高的位置就是平均數,也就是 數、眾
和中位數,三者合而為一。
• 常態分 是連續的曲線,但是現實中,並沒有佈
連續的曲線存在。頂多只是類似常態分 ,可佈
是當樣本數很大時,會越接近常態分 。佈
第一節 常態分 的特性 (佈 4 )
• 早在 18 世紀就有數學家和天文學家開始探討
這樣的一條曲線。德國天文家兼數學家高斯
( Carl Friedrich Gauss , 1777-1855 )利用常
態分 研究天文學觀察中誤差的分 情形,因佈 佈
此常態分 又稱高斯分佈 佈。
• 後來高登爵士( Sir Francis Galton, 1822-
1911 )將高斯分 用於心理測驗的研究中。佈
• 另一位著名的數學和統計學家 Karl Pearson
( 1857-1936 )將高斯分 稱為常態分 。佈 佈
第一節 常態分 的特性 (佈 5 )
• 這條曲線的數學函數為
• 其中 = 3.1416 , e 是自然對數之底
2.7183 , X 介在正負無限大,是平均數,
是標準差。一旦確定平均數和標準差後,帶入
公式算得 f(X) 。
( )
2
2
1
2
2
1
,;





 −
−
== σ
µ
πσ
σµ
X
eXfY
第一節 常態分 的特性 (佈 6 )
• 要決定常態分 的形狀,就必須知道平均數佈 
和變異數
(或者標準差)。常態分 取決佈
於兩個參數( parameter ):和
。
• 只要設定這兩個參數,就可以畫出那條常態分
曲線。只要佈 或
不同,曲線就不同。
• 這也就是為何在上述公式裡,表明
• 其中分號後面代表的就是決定這個函數的參數。
假如變數 X 服從常態分 ,平均數為佈 ,變異
數為 2
,則寫成: X ~ N(µ, σ2
) ,其中 ~ 表示
服從, N 表示常態分 。佈
),;( 2
σµXf
第一節 常態分 的特性 (佈 7 )
• 下圖(機率密度函數圖, probability density
function plot )呈現三條常態分 曲線,其中佈 A
曲線的平均數和標準差分別為 170 和 5 , B 曲
線的平均數和標準差分別為 175 和 5 , C 曲線
的平均數和標準差分別為 170 和 10 。
• 比較 A 和 B ,可以發現當平均數不同而標準差
相同時,整個曲線只是位移而已。
• 比較 A 和 C 可以發現如果標準差不同,整個圖
形就改變了,即使他們的平均數相同。例如 C
便得比 A 來得平坦多了,那是因為 C 的標準差
遠比 A 來得大所致。
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
140 145 150 155 160 165 170 175 180 185 190 195 200
f(X)
A: µ = 170, σ = 5
C: µ = 170, σ = 10
B: µ = 175, σ = 5
第一節 常態分 的特性 (佈 8 )
• 如果是間斷變項,例如骰子出現的點數,那麼
就可以說出現 3 點的機率( probability )是
1/6 ,即 p(X = 3) = 1/6 。
• 換做連續變項,不宜宣稱 X 等於某個 的機率值
。
• 假如把身高當作連續變項,那麼身高是 170 公
分整的機率是多少?嚴格的說,在連續變項中
任何一點出現的機率都是 0 ,因此 170 公分整
的機率等於 0 。
第一節 常態分 的特性 (佈 9 )
• 連續變項既然無點出現的機率,改稱為機率密
度( probability density )。在平均數為 170 ,
標準差為 5 的常態分 中佈 170 的機率密度等於
• ( ) 0798.0
25
1
170
2
5
170170
2
1
==





 −
−
ef
π
第一節 常態分 的特性佈
( 10 )
• 機率密度函數圖只能看出各個點的機率密度,
但機率密度無多大意義,因此該圖並不實用。
• 對使用者而言,不關心 170 公分的機率密度,
而是關心 170 公分以下的機率,或是 165 至
175 的機率,因此應該換另外一個能 呈現這夠
種意義的圖。
• 就數學而言,要得到這樣的圖,必須透過積分
以計算某段區間的面積。令整個曲線所涵蓋面
積為 1 ,那麼某段區間所佔的面積就是該區段
的機率。
第一節 常態分 的特性佈
( 11 )
• 下圖呈現常態分 (平均數佈 170 ,標準差 5 )
的累積分 函數圖(佈 cumulative distribution
function )。
• 如果要計算 170 公分以下的機率,就直接從
170 處往上劃至該曲線,然後往左劃,即可算
得。同理,要計算任何一個區段(如 165 至
175 )的面積,也可如此,輕易算得機率了。
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
140 145 150 155 160 165 170 175 180 185 190 195 200
身 高
F(X)累積分佈函數
第一節 常態分 的特性佈
( 12 )
• 如果要計算 170 公分以下的機率,就直接從
170 處往上劃至該曲線,然後往左劃,即可算
得。同理,要計算任何一個區段(如 165 至
175 )的面積,也可如此算得機率。
• 不過畢竟要如此計算機率,必須先有此累積分
函數圖。可惜,通常不易獲得該圖。此外用佈
畫線的方式也只能得到粗略的數 。值
第一節 常態分 的特性佈
( 13 )
• 一般的統計學教科書的附錄裡,都可以 到常查
態分 的機率密度函數和累積分 函數。佈 佈
• Excel 的函數 NORMDIST 和 NORMINV ,直
接可以 詢。 例如要 詢平均數為查 查 170 ,變異
數為 25 的常態分 ,寫成佈 N(170, 25) , 170 的
機 率 密 度 , 就 鍵 入
「 =NORMDIST(170,170,5,FALSE) 」得機率密
度為 0.0798 。
• 其中 NORMDIST 就是 詢常態分 的函數,查 佈
第一個 170 就是要 的數 ,第二個查 值 170 為該
常態分 的平均數,佈 5 是標準差, FALSE 表
示要 的是機率密度。查
第一節 常態分 的特性佈
( 14 )
• 若要 負無限大到查 170 的機率(同樣是 N(170,
25) ),鍵入
• 「 =NORMDIST(170,170,5,TRUE) 」 , 其 中
TRUE 表示要 的是累積機率,得到查 0.5 。這
表示在平均數為 170 ,變異數為 25 的常態分
中,負無限大到佈 170 的機率就是 0.5 ,也就
是說 170 左邊的面積佔 0.5 。
第一節 常態分 的特性佈
( 15 )
• 假 如 我 們 會 想 知 道 中 間 的 80% ( 或
90% , 95% 等)的成年男子的身高介在那裡至
那裡之間。如果身高是平均數 170 ,標準差 5
的常態分 ,那麼佈 80% 的成年男子的身高將介
於 170± 某個範圍。以平均數 170 為中心點,
左右兩邊各佔 40% ,合計 80% 。
• 這可利用下圖的累積分 函數圖窺知。在佈 Y 軸
上的 0.1 和 0.9 處往右劃至曲線,再往下劃至 X
軸即得,分別為 164 和 176 。身高在 164 和
176 之間的人佔 80% 。
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
140 145 150 155 160 165 170 175 180 185 190 195 200
身 高
F(X)累積分佈函數
第一節 常態分 的特性佈
( 16 )
• 上圖的作法等於在計算累積分 函數的反函數佈
, Excel 提供了這項函數 NORMINV 。
• 我們要算從分 的左邊起算,面積為佈 0.1 的數
是多少,以及面積為值 0.9 的數 為多少。值
• 鍵入「 =NORMINV(0.1,170,5) 」得 163.59 ,
這表示在平均數為 170 ,標準差為 5 的常態分
中,左邊起算到佈 163.59 的面積為 0.1 。
• 鍵入「 =NORMINV(0.9,170,5) 」得 176.41 ,
這表示從左邊起算至 176.41 的面積為 0.9 。因
此在 163.59 到 176.41 的數 占的面積為值 0.8 。
第一節 常態分 的特性佈
( 17 )
• 例子 1
• 如果全國成年男性的身高為常態分 (嚴格的佈
說是非常近似常態分 ),平均數為佈 170 ,標
準差為 5 。身高在平均數上下 0.5 個標準差的
人約佔多少?在平均數上下 1 個標準差的人約
佔多少?在平均數上下 1.645 個標準差、上下
1.96 個標準差、上下 3 個標準差的人約佔多少
?
第一節 常態分 的特性佈
( 18 )
• 作法
• 已知 1 個標準差為 5 ,因此在平均數上下 0.5
個標準差的數 就是值 170±2.5 。即 167.5 和
172.5 。
• 從負無限大到 167.5 的面積為 0.31 ,這可以利
用 NORMDIST 函 數 求 得 , 鍵 入
「 =NORMDIST(167.5,170,5,TRUE) 」 。 由 於
常態分 是左右對稱,因此從佈 172.5 到無限大
的面積也是 0.31 。扣除兩邊面積各 0.31 後,
中間 167.5 到 172.5 的面積就是 0.38 。
第一節 常態分 的特性佈
( 19 )
• 平均數上下 1 個標準差的數 為值 165 和 175 。
從負無限大到 165 的面積為 0.16 ,從負無限大
到 175 的面積為 0.84 。因此在平均數上下 1
個標準差之間的面積 0.68 。
• 平均數上下 1.645 個標準差的數 為值 161.775
和 178.225 。從負無限大到 161.775 的面積為
0.05 ,從負無限大到 178.225 的面積為 0.95 。
因此在平均數上下 1.645 個標準差之間的面
積就是 0.90 。
第一節 常態分 的特性佈
( 20 )
• 平均數上下 1.96 個標準差的數 為值 160.2 和
179.8 。從負無限大到 160.2 的面積為 0.025 ,
從負無限大到 179.8 的面積為 0.975 。 平均數
上下 1.96 個標準差之間的面積就是 0.95 。
• 平均數上下 3 個標準差的數 為值 155 和 185 。
從負無限大到 155 的面積為 0.0014 ,從負無限
大到 185 的面積為 0.9987 。因此在平均數上下
3 個標準差之間的面積就是 0.9973 。
第一節 常態分 的特性佈
( 21 )
• 對任何的常態分 而言,平均數上下佈 0.5 個標
準差之間的面積為 0.38 ;上下 1 個標準差之
間的面積為 0.68 ;上下 1.645 個標準差之間的
面積為 0.90 ;上下 1.96 個標準差之間的面積
為 0.95 ; 上 下 3 個 標 準 差 之 間 的 面 積 為
0.997 。
第一節 常態分 的特性佈
( 22 )
• 例子 2
• 假設某廠牌汽車電池的壽命是常態分 ,平均佈
數為 800 天,標準差為 100 天。現隨機抽取一
個汽車電池,其壽命小於 500 天的機率有多大
?大於 1000 天的機率有多大?介於 700 天至
900 天的機率有多大?
• 如果該公司想訂定一個保固期,在保固期限內
可以免費更換電池,公司最多可以承擔 1% 的
免費更換,保固期應該定多久?
第一節 常態分 的特性佈
( 23 )
• 作法
• 鍵入「 =NORMDIST(500,800,100,TRUE) 」得
0.001 ,因此小於 500 天的機率為 0.001 。
• 鍵入「 =NORMDIST(1000,800,100,TRUE) 」得
0.977 ,這是小於 1000 天的機率。大於 1000
天的機率為 1 – 0.977 = 0.023 。
第一節 常態分 的特性佈
( 24 )
• 鍵入「 =NORMDIST(700,800,100,TRUE) 」得
0.159 。 鍵 入 「 =NORMDIST(900,800,100,
TRUE) 」得 0.841 。介於 700 天到 900 天的機
率就是 0.841 – 0.159 = 0.683 。
• 由於最多承擔 1% 的免費更換,等於要找到一
個電池壽命的天數, 其左邊的面積為 1% 。鍵
入「 =NORMINV(0.01,800,100) 」得 567 天。
電池壽命小於 567 天的機率為 1% 。
第二節 標準常態分佈( 1 )
• 標準常態分 (佈 standard normal distribution )
,又稱 Z 分 ,就是將平均數訂為佈 0 ,變異數
訂為 1 的常態分 。佈
• 任何常態分 都可以換做標準常態分 ,只要佈 佈
它的 減去平均數再除以標準差。即值
σ
µ−
=
X
Z
第二節 標準常態分佈( 2 )
• 此 Z 變項所形成的分 稱為標準常態分 ,又佈 佈
稱 Z 分 。此分 的機率密度函數為:佈 佈
( ) 2
2
2
1
Z
eZf
−
=
π
( ) 2
2
2
1
Z
eZf
−
=
π
0
0.1
0.2
0.3
0.4
0.5
-3 -2 -1 0 1 2 3
Z
f(Z)
Z 分 的機率密度函數佈Z 分 的機率密度函數佈Z 分 的機率密度函數佈
Z 分 的機率密度函數圖佈
Z 分 的機率密度函數佈Z 分 的機率密度函數佈Z 分 的機率密度函數佈
Z 分 的累積分 函數圖佈 佈
0
0.2
0.4
0.6
0.8
1
-3 -2 -1 0 1 2 3
Z
F(Z)累積分佈函數
第二節 標準常態分佈( 3 )
• 對 Z 分 而言,其 介於佈 值 ±0.5 的機率為
38% ;其 介於值 ±1 的機率為 68% ;介於
±1.645 的機率為 90% ,介於 ±1.96 的機率為
95% ,介於 ±3 的機率為 99.7% 。
• 定義 zα/2
為 Z 分 「右邊」起算面積為佈  2 的
z ,如下圖所示,由於值 Z 分 左右對稱於佈
0 ,因此
• z1−α/2
= - zα/2
• Z 介於 - zα/2
是 zα/2
的機率為 1- α :
• P(- zα/2
< Z < zα/2
) = 1- α
第二節 標準常態分佈( 4 )
• 利用 Excel 計算 Z 分 的累積分 函數及其反佈 佈
函數,除了可以援用上述常態分 的函數佈
NORMDIST 和 NORMINV 外(此時請鍵入平
均數 0 ,標準差 1 。)還可以利用
NORMSDIST 和 NORMSINV 。
• 不過若要計算 Z 分 的機率密度函數,還得用佈
NORMDIST ,因為 NORMSDIST 只能計算累
積分 函數。佈
第二節 標準常態分佈( 5 )
• 在進行線性轉換之前, X 變項是常態分 ,由佈
於線性轉換不會改變其分 形狀,因此佈 Z 變項
仍是常態分 。佈
• 如果 X 變項原本就不是常態分 ,即使進行線佈
性轉換成為 Z 變項,並不使得 Z 變項變為常態
。
第三節 峰度與偏態 ( 1 )
• 峰度( kurtosis )和偏態( skewness )常被分
別用於描述資料分 的高度和左右對稱性。佈
• 常態分 的峰度等於佈 0 。如果資料的峰度大於
0 ,那麼該資料的分 較高聳且狹窄,稱為高佈
狹峰分 (佈 platykurtic distribution )。
• 如果峰度小於 0 ,資料的分 較平坦且 闊,佈 寬
稱為低闊峰分 (佈 leptokurtic distribution )。
常態分佈
高狹峰分佈
低闊峰分佈
第三節 峰度與偏態 ( 2 )
• 峰度的公式是
• 如果是樣本的話,峰度為:
3
)(
4
4
−
−
σ
µXE
( )
( )( )( )
( )
( )( )32
13
321
1
24
−−
−
−













 −
−−−
+
∑ NN
N
S
XX
NNN
NN i
第三節 峰度與偏態 ( 3 )
• Excel 資料分析的「敘述統計」功能可計算峰
度。
• 或利用 KURT 的函數。例如資料為 1, 2, 3, 4, 5,
6, 7 ,鍵入「 =KURT(1,2,3,4,5,6,7) 」就得峰
度 -1.2 。該 小於值 0 ,因為 1 到 7 這些 的分值
比常態分 來得平坦。佈 佈
• 如果數 換為值 1, 2, 2, 2, 2, 2, 3 ,此 7 個 的分值
中間非常 峭(佈 陡 2 的次數非常多),鍵入
「 =KURT(1,2,2,2,2,2,3) 」得峰度為 3 。
第三節 峰度與偏態 ( 4 )
• 偏態也和峰度一樣在描述資料分 的形狀,如佈
果分數往右邊延伸,其偏態 會大於值 0 ,故稱
正偏態或右偏態。
• 如果分數往左邊延伸,偏態 小於值 0 ,故稱負
偏態或左偏態;如果對稱分 ,偏態 等於佈 值
0 。
• 第三章變異量數的圖 2(c) 就是負(左)偏態,
2(d) 則是正(右)偏態。
第三節 峰度與偏態 ( 5 )
• 偏態的公式為
• 如果是樣本的話,則是:
3
3
)(
σ
µ−XE
( )( )
3
21
∑ 




 −
−− S
XX
NN
N i
第三節 峰度與偏態 ( 6 )
• Excel 的 SKEW 的函數可用來計算偏態。
• 例如資料為 1, 2, 3, 4, 5, 6, 7 ,鍵入
「 =SKEW(1,2,3,4,5,6,7) 」得偏態為 0 。
• 數 換為值 1, 1, 1, 1, 2, 3, 4 ,此 7 個 左邊(數值
較小者)較多,右邊較少,因此是右偏態。值
鍵入「 =SKEW(1,1,1,1,2,3,4) 」得偏態為
1.15 。
• 如果是 1, 2, 3, 4, 4, 4, 4 ,此 7 個 右邊(數值 值
較大者)較多,左邊較少,因此是左偏態,鍵
入「 =SKEW(1,2,3,4,4,4,4) 」得偏態為 -1.15 。

More Related Content

What's hot

Air Quality Prediction Using Markov Chains
Air Quality Prediction Using Markov ChainsAir Quality Prediction Using Markov Chains
Air Quality Prediction Using Markov Chains
AkarshAvinash
 

What's hot (13)

M.Phil Unit I water
M.Phil Unit I waterM.Phil Unit I water
M.Phil Unit I water
 
The Hydrogen Myth
The Hydrogen MythThe Hydrogen Myth
The Hydrogen Myth
 
Air Quality Prediction Using Markov Chains
Air Quality Prediction Using Markov ChainsAir Quality Prediction Using Markov Chains
Air Quality Prediction Using Markov Chains
 
Bulk density and bulking of fine and coarse aggregate
Bulk density and bulking of fine and coarse aggregateBulk density and bulking of fine and coarse aggregate
Bulk density and bulking of fine and coarse aggregate
 
Cement testing
Cement testingCement testing
Cement testing
 
Soundness of Hydraulic Cement Paste | Jameel Academy
Soundness of Hydraulic Cement Paste | Jameel AcademySoundness of Hydraulic Cement Paste | Jameel Academy
Soundness of Hydraulic Cement Paste | Jameel Academy
 
Shewhart Charts for Variables
Shewhart Charts for VariablesShewhart Charts for Variables
Shewhart Charts for Variables
 
Cement rotary kiln
Cement rotary kilnCement rotary kiln
Cement rotary kiln
 
Sieving Final Report
Sieving Final ReportSieving Final Report
Sieving Final Report
 
post tanning process.pdf
post tanning process.pdfpost tanning process.pdf
post tanning process.pdf
 
Talcum powder manufacturing process
Talcum powder manufacturing processTalcum powder manufacturing process
Talcum powder manufacturing process
 
Slump test
Slump testSlump test
Slump test
 
Kaizen training
Kaizen trainingKaizen training
Kaizen training
 

Ch04高斯分佈

  • 2. 第一節 常態分 的特性 (佈 1 ) • 如果調 台灣查 1000 位成年男性的身高,將會 發現身高特別高和特別低的人佔極少數,絕大 多數的人身高都在中間(例如 170 公分)附近 。 • 如果這 1000 人的平均身高是 170 公分,那麼 身高離 170 公分越遠的人,所佔的比例就越 少。簡單的說,大略呈現以 170 公分為中心, 並往兩旁遞減的分 圖。如下圖所示。佈
  • 3. 0 10 20 30 40 50 60 70 80 90 150 155 160 165 170 175 180 185 190 身 高 人數
  • 4. 第一節 常態分 的特性 (佈 2 ) • 如果調 的是體重、收入、智力等變項,也很查 可能出現類似上圖的分 。佈 • 上圖的分 是間斷的,可是理論上身高是連續佈 的,因為任何兩個人之間,存在第三個人,其 身高介在他們之間。 • 如果調 更多的人(如查 10 萬人),那麼上圖 的長條圖中間斷現象逐漸會消除。一旦調 人查 數非常之大,那麼上圖的長條圖會變成平滑的 曲線圖,如下圖中的平滑曲線所示。
  • 5. 0 10 20 30 40 50 60 70 80 90 150 155 160 165 170 175 180 185 190 身 高 人數
  • 6. 第一節 常態分 的特性 (佈 3 ) • 上圖的平滑線左右對稱,好像一座山,或者類 似「銅鐘」的形狀。也就是中間最高,往兩旁 遞減,這就是所謂的常態分 (佈 normal distribution )。 • 由於是左右對稱,且由中間往兩旁遞減,因此 中心點最高的位置就是平均數,也就是 數、眾 和中位數,三者合而為一。 • 常態分 是連續的曲線,但是現實中,並沒有佈 連續的曲線存在。頂多只是類似常態分 ,可佈 是當樣本數很大時,會越接近常態分 。佈
  • 7. 第一節 常態分 的特性 (佈 4 ) • 早在 18 世紀就有數學家和天文學家開始探討 這樣的一條曲線。德國天文家兼數學家高斯 ( Carl Friedrich Gauss , 1777-1855 )利用常 態分 研究天文學觀察中誤差的分 情形,因佈 佈 此常態分 又稱高斯分佈 佈。 • 後來高登爵士( Sir Francis Galton, 1822- 1911 )將高斯分 用於心理測驗的研究中。佈 • 另一位著名的數學和統計學家 Karl Pearson ( 1857-1936 )將高斯分 稱為常態分 。佈 佈
  • 8. 第一節 常態分 的特性 (佈 5 ) • 這條曲線的數學函數為 • 其中 = 3.1416 , e 是自然對數之底 2.7183 , X 介在正負無限大,是平均數, 是標準差。一旦確定平均數和標準差後,帶入 公式算得 f(X) 。 ( ) 2 2 1 2 2 1 ,;       − − == σ µ πσ σµ X eXfY
  • 9. 第一節 常態分 的特性 (佈 6 ) • 要決定常態分 的形狀,就必須知道平均數佈  和變異數 (或者標準差)。常態分 取決佈 於兩個參數( parameter ):和 。 • 只要設定這兩個參數,就可以畫出那條常態分 曲線。只要佈 或 不同,曲線就不同。 • 這也就是為何在上述公式裡,表明 • 其中分號後面代表的就是決定這個函數的參數。 假如變數 X 服從常態分 ,平均數為佈 ,變異 數為 2 ,則寫成: X ~ N(µ, σ2 ) ,其中 ~ 表示 服從, N 表示常態分 。佈 ),;( 2 σµXf
  • 10. 第一節 常態分 的特性 (佈 7 ) • 下圖(機率密度函數圖, probability density function plot )呈現三條常態分 曲線,其中佈 A 曲線的平均數和標準差分別為 170 和 5 , B 曲 線的平均數和標準差分別為 175 和 5 , C 曲線 的平均數和標準差分別為 170 和 10 。 • 比較 A 和 B ,可以發現當平均數不同而標準差 相同時,整個曲線只是位移而已。 • 比較 A 和 C 可以發現如果標準差不同,整個圖 形就改變了,即使他們的平均數相同。例如 C 便得比 A 來得平坦多了,那是因為 C 的標準差 遠比 A 來得大所致。
  • 11. 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 140 145 150 155 160 165 170 175 180 185 190 195 200 f(X) A: µ = 170, σ = 5 C: µ = 170, σ = 10 B: µ = 175, σ = 5
  • 12. 第一節 常態分 的特性 (佈 8 ) • 如果是間斷變項,例如骰子出現的點數,那麼 就可以說出現 3 點的機率( probability )是 1/6 ,即 p(X = 3) = 1/6 。 • 換做連續變項,不宜宣稱 X 等於某個 的機率值 。 • 假如把身高當作連續變項,那麼身高是 170 公 分整的機率是多少?嚴格的說,在連續變項中 任何一點出現的機率都是 0 ,因此 170 公分整 的機率等於 0 。
  • 13. 第一節 常態分 的特性 (佈 9 ) • 連續變項既然無點出現的機率,改稱為機率密 度( probability density )。在平均數為 170 , 標準差為 5 的常態分 中佈 170 的機率密度等於 • ( ) 0798.0 25 1 170 2 5 170170 2 1 ==       − − ef π
  • 14. 第一節 常態分 的特性佈 ( 10 ) • 機率密度函數圖只能看出各個點的機率密度, 但機率密度無多大意義,因此該圖並不實用。 • 對使用者而言,不關心 170 公分的機率密度, 而是關心 170 公分以下的機率,或是 165 至 175 的機率,因此應該換另外一個能 呈現這夠 種意義的圖。 • 就數學而言,要得到這樣的圖,必須透過積分 以計算某段區間的面積。令整個曲線所涵蓋面 積為 1 ,那麼某段區間所佔的面積就是該區段 的機率。
  • 15. 第一節 常態分 的特性佈 ( 11 ) • 下圖呈現常態分 (平均數佈 170 ,標準差 5 ) 的累積分 函數圖(佈 cumulative distribution function )。 • 如果要計算 170 公分以下的機率,就直接從 170 處往上劃至該曲線,然後往左劃,即可算 得。同理,要計算任何一個區段(如 165 至 175 )的面積,也可如此,輕易算得機率了。
  • 16. 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 140 145 150 155 160 165 170 175 180 185 190 195 200 身 高 F(X)累積分佈函數
  • 17. 第一節 常態分 的特性佈 ( 12 ) • 如果要計算 170 公分以下的機率,就直接從 170 處往上劃至該曲線,然後往左劃,即可算 得。同理,要計算任何一個區段(如 165 至 175 )的面積,也可如此算得機率。 • 不過畢竟要如此計算機率,必須先有此累積分 函數圖。可惜,通常不易獲得該圖。此外用佈 畫線的方式也只能得到粗略的數 。值
  • 18. 第一節 常態分 的特性佈 ( 13 ) • 一般的統計學教科書的附錄裡,都可以 到常查 態分 的機率密度函數和累積分 函數。佈 佈 • Excel 的函數 NORMDIST 和 NORMINV ,直 接可以 詢。 例如要 詢平均數為查 查 170 ,變異 數為 25 的常態分 ,寫成佈 N(170, 25) , 170 的 機 率 密 度 , 就 鍵 入 「 =NORMDIST(170,170,5,FALSE) 」得機率密 度為 0.0798 。 • 其中 NORMDIST 就是 詢常態分 的函數,查 佈 第一個 170 就是要 的數 ,第二個查 值 170 為該 常態分 的平均數,佈 5 是標準差, FALSE 表 示要 的是機率密度。查
  • 19. 第一節 常態分 的特性佈 ( 14 ) • 若要 負無限大到查 170 的機率(同樣是 N(170, 25) ),鍵入 • 「 =NORMDIST(170,170,5,TRUE) 」 , 其 中 TRUE 表示要 的是累積機率,得到查 0.5 。這 表示在平均數為 170 ,變異數為 25 的常態分 中,負無限大到佈 170 的機率就是 0.5 ,也就 是說 170 左邊的面積佔 0.5 。
  • 20. 第一節 常態分 的特性佈 ( 15 ) • 假 如 我 們 會 想 知 道 中 間 的 80% ( 或 90% , 95% 等)的成年男子的身高介在那裡至 那裡之間。如果身高是平均數 170 ,標準差 5 的常態分 ,那麼佈 80% 的成年男子的身高將介 於 170± 某個範圍。以平均數 170 為中心點, 左右兩邊各佔 40% ,合計 80% 。 • 這可利用下圖的累積分 函數圖窺知。在佈 Y 軸 上的 0.1 和 0.9 處往右劃至曲線,再往下劃至 X 軸即得,分別為 164 和 176 。身高在 164 和 176 之間的人佔 80% 。
  • 21. 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 140 145 150 155 160 165 170 175 180 185 190 195 200 身 高 F(X)累積分佈函數
  • 22. 第一節 常態分 的特性佈 ( 16 ) • 上圖的作法等於在計算累積分 函數的反函數佈 , Excel 提供了這項函數 NORMINV 。 • 我們要算從分 的左邊起算,面積為佈 0.1 的數 是多少,以及面積為值 0.9 的數 為多少。值 • 鍵入「 =NORMINV(0.1,170,5) 」得 163.59 , 這表示在平均數為 170 ,標準差為 5 的常態分 中,左邊起算到佈 163.59 的面積為 0.1 。 • 鍵入「 =NORMINV(0.9,170,5) 」得 176.41 , 這表示從左邊起算至 176.41 的面積為 0.9 。因 此在 163.59 到 176.41 的數 占的面積為值 0.8 。
  • 23. 第一節 常態分 的特性佈 ( 17 ) • 例子 1 • 如果全國成年男性的身高為常態分 (嚴格的佈 說是非常近似常態分 ),平均數為佈 170 ,標 準差為 5 。身高在平均數上下 0.5 個標準差的 人約佔多少?在平均數上下 1 個標準差的人約 佔多少?在平均數上下 1.645 個標準差、上下 1.96 個標準差、上下 3 個標準差的人約佔多少 ?
  • 24. 第一節 常態分 的特性佈 ( 18 ) • 作法 • 已知 1 個標準差為 5 ,因此在平均數上下 0.5 個標準差的數 就是值 170±2.5 。即 167.5 和 172.5 。 • 從負無限大到 167.5 的面積為 0.31 ,這可以利 用 NORMDIST 函 數 求 得 , 鍵 入 「 =NORMDIST(167.5,170,5,TRUE) 」 。 由 於 常態分 是左右對稱,因此從佈 172.5 到無限大 的面積也是 0.31 。扣除兩邊面積各 0.31 後, 中間 167.5 到 172.5 的面積就是 0.38 。
  • 25. 第一節 常態分 的特性佈 ( 19 ) • 平均數上下 1 個標準差的數 為值 165 和 175 。 從負無限大到 165 的面積為 0.16 ,從負無限大 到 175 的面積為 0.84 。因此在平均數上下 1 個標準差之間的面積 0.68 。 • 平均數上下 1.645 個標準差的數 為值 161.775 和 178.225 。從負無限大到 161.775 的面積為 0.05 ,從負無限大到 178.225 的面積為 0.95 。 因此在平均數上下 1.645 個標準差之間的面 積就是 0.90 。
  • 26. 第一節 常態分 的特性佈 ( 20 ) • 平均數上下 1.96 個標準差的數 為值 160.2 和 179.8 。從負無限大到 160.2 的面積為 0.025 , 從負無限大到 179.8 的面積為 0.975 。 平均數 上下 1.96 個標準差之間的面積就是 0.95 。 • 平均數上下 3 個標準差的數 為值 155 和 185 。 從負無限大到 155 的面積為 0.0014 ,從負無限 大到 185 的面積為 0.9987 。因此在平均數上下 3 個標準差之間的面積就是 0.9973 。
  • 27. 第一節 常態分 的特性佈 ( 21 ) • 對任何的常態分 而言,平均數上下佈 0.5 個標 準差之間的面積為 0.38 ;上下 1 個標準差之 間的面積為 0.68 ;上下 1.645 個標準差之間的 面積為 0.90 ;上下 1.96 個標準差之間的面積 為 0.95 ; 上 下 3 個 標 準 差 之 間 的 面 積 為 0.997 。
  • 28. 第一節 常態分 的特性佈 ( 22 ) • 例子 2 • 假設某廠牌汽車電池的壽命是常態分 ,平均佈 數為 800 天,標準差為 100 天。現隨機抽取一 個汽車電池,其壽命小於 500 天的機率有多大 ?大於 1000 天的機率有多大?介於 700 天至 900 天的機率有多大? • 如果該公司想訂定一個保固期,在保固期限內 可以免費更換電池,公司最多可以承擔 1% 的 免費更換,保固期應該定多久?
  • 29. 第一節 常態分 的特性佈 ( 23 ) • 作法 • 鍵入「 =NORMDIST(500,800,100,TRUE) 」得 0.001 ,因此小於 500 天的機率為 0.001 。 • 鍵入「 =NORMDIST(1000,800,100,TRUE) 」得 0.977 ,這是小於 1000 天的機率。大於 1000 天的機率為 1 – 0.977 = 0.023 。
  • 30. 第一節 常態分 的特性佈 ( 24 ) • 鍵入「 =NORMDIST(700,800,100,TRUE) 」得 0.159 。 鍵 入 「 =NORMDIST(900,800,100, TRUE) 」得 0.841 。介於 700 天到 900 天的機 率就是 0.841 – 0.159 = 0.683 。 • 由於最多承擔 1% 的免費更換,等於要找到一 個電池壽命的天數, 其左邊的面積為 1% 。鍵 入「 =NORMINV(0.01,800,100) 」得 567 天。 電池壽命小於 567 天的機率為 1% 。
  • 31. 第二節 標準常態分佈( 1 ) • 標準常態分 (佈 standard normal distribution ) ,又稱 Z 分 ,就是將平均數訂為佈 0 ,變異數 訂為 1 的常態分 。佈 • 任何常態分 都可以換做標準常態分 ,只要佈 佈 它的 減去平均數再除以標準差。即值 σ µ− = X Z
  • 32. 第二節 標準常態分佈( 2 ) • 此 Z 變項所形成的分 稱為標準常態分 ,又佈 佈 稱 Z 分 。此分 的機率密度函數為:佈 佈 ( ) 2 2 2 1 Z eZf − = π ( ) 2 2 2 1 Z eZf − = π
  • 33. 0 0.1 0.2 0.3 0.4 0.5 -3 -2 -1 0 1 2 3 Z f(Z) Z 分 的機率密度函數佈Z 分 的機率密度函數佈Z 分 的機率密度函數佈 Z 分 的機率密度函數圖佈
  • 34. Z 分 的機率密度函數佈Z 分 的機率密度函數佈Z 分 的機率密度函數佈 Z 分 的累積分 函數圖佈 佈 0 0.2 0.4 0.6 0.8 1 -3 -2 -1 0 1 2 3 Z F(Z)累積分佈函數
  • 35. 第二節 標準常態分佈( 3 ) • 對 Z 分 而言,其 介於佈 值 ±0.5 的機率為 38% ;其 介於值 ±1 的機率為 68% ;介於 ±1.645 的機率為 90% ,介於 ±1.96 的機率為 95% ,介於 ±3 的機率為 99.7% 。 • 定義 zα/2 為 Z 分 「右邊」起算面積為佈  2 的 z ,如下圖所示,由於值 Z 分 左右對稱於佈 0 ,因此 • z1−α/2 = - zα/2 • Z 介於 - zα/2 是 zα/2 的機率為 1- α : • P(- zα/2 < Z < zα/2 ) = 1- α
  • 36.
  • 37. 第二節 標準常態分佈( 4 ) • 利用 Excel 計算 Z 分 的累積分 函數及其反佈 佈 函數,除了可以援用上述常態分 的函數佈 NORMDIST 和 NORMINV 外(此時請鍵入平 均數 0 ,標準差 1 。)還可以利用 NORMSDIST 和 NORMSINV 。 • 不過若要計算 Z 分 的機率密度函數,還得用佈 NORMDIST ,因為 NORMSDIST 只能計算累 積分 函數。佈
  • 38. 第二節 標準常態分佈( 5 ) • 在進行線性轉換之前, X 變項是常態分 ,由佈 於線性轉換不會改變其分 形狀,因此佈 Z 變項 仍是常態分 。佈 • 如果 X 變項原本就不是常態分 ,即使進行線佈 性轉換成為 Z 變項,並不使得 Z 變項變為常態 。
  • 39. 第三節 峰度與偏態 ( 1 ) • 峰度( kurtosis )和偏態( skewness )常被分 別用於描述資料分 的高度和左右對稱性。佈 • 常態分 的峰度等於佈 0 。如果資料的峰度大於 0 ,那麼該資料的分 較高聳且狹窄,稱為高佈 狹峰分 (佈 platykurtic distribution )。 • 如果峰度小於 0 ,資料的分 較平坦且 闊,佈 寬 稱為低闊峰分 (佈 leptokurtic distribution )。
  • 41. 第三節 峰度與偏態 ( 2 ) • 峰度的公式是 • 如果是樣本的話,峰度為: 3 )( 4 4 − − σ µXE ( ) ( )( )( ) ( ) ( )( )32 13 321 1 24 −− − −               − −−− + ∑ NN N S XX NNN NN i
  • 42. 第三節 峰度與偏態 ( 3 ) • Excel 資料分析的「敘述統計」功能可計算峰 度。 • 或利用 KURT 的函數。例如資料為 1, 2, 3, 4, 5, 6, 7 ,鍵入「 =KURT(1,2,3,4,5,6,7) 」就得峰 度 -1.2 。該 小於值 0 ,因為 1 到 7 這些 的分值 比常態分 來得平坦。佈 佈 • 如果數 換為值 1, 2, 2, 2, 2, 2, 3 ,此 7 個 的分值 中間非常 峭(佈 陡 2 的次數非常多),鍵入 「 =KURT(1,2,2,2,2,2,3) 」得峰度為 3 。
  • 43. 第三節 峰度與偏態 ( 4 ) • 偏態也和峰度一樣在描述資料分 的形狀,如佈 果分數往右邊延伸,其偏態 會大於值 0 ,故稱 正偏態或右偏態。 • 如果分數往左邊延伸,偏態 小於值 0 ,故稱負 偏態或左偏態;如果對稱分 ,偏態 等於佈 值 0 。 • 第三章變異量數的圖 2(c) 就是負(左)偏態, 2(d) 則是正(右)偏態。
  • 44. 第三節 峰度與偏態 ( 5 ) • 偏態的公式為 • 如果是樣本的話,則是: 3 3 )( σ µ−XE ( )( ) 3 21 ∑       − −− S XX NN N i
  • 45. 第三節 峰度與偏態 ( 6 ) • Excel 的 SKEW 的函數可用來計算偏態。 • 例如資料為 1, 2, 3, 4, 5, 6, 7 ,鍵入 「 =SKEW(1,2,3,4,5,6,7) 」得偏態為 0 。 • 數 換為值 1, 1, 1, 1, 2, 3, 4 ,此 7 個 左邊(數值 較小者)較多,右邊較少,因此是右偏態。值 鍵入「 =SKEW(1,1,1,1,2,3,4) 」得偏態為 1.15 。 • 如果是 1, 2, 3, 4, 4, 4, 4 ,此 7 個 右邊(數值 值 較大者)較多,左邊較少,因此是左偏態,鍵 入「 =SKEW(1,2,3,4,4,4,4) 」得偏態為 -1.15 。