More Related Content Similar to 應用統計學期末報告 (11) 應用統計學期末報告3. EDBA/EMBA
名詞解釋
• 統計推論
– 根據隨機樣本數據推論母體參數特性;利用機率敘述量
化抽樣誤差的大小。
• 母體
– 有興趣的物件或人所形成的集合。
• 樣本
– 來自母體的部分集合
• 抽樣的目的
– 經由樣本觀察值去估計(樣本統計)母體的特徵值。
4. EDBA/EMBA
名詞解釋
• 樣本統計量( Sample Statistics )
– 把樣本觀察值全部都拿來計算出來的量
• 推論統計( Inferential Statistics )
– 以樣本統計量推估母體參數,並利用機率敘述來量化抽
樣誤差(如區間估計、假設檢定)
• 統計推論( Statistics Inferential )
– 以小樣本所算得的樣本統計量去推論大母體的母體參數。
包含區間估計、假設檢定。
5. EDBA/EMBA
二項、負二項、超幾何
• 二項分配
– 袋中黑白兩種球,每次取出一球放回,黑球總數呈現二
項分配。
• 負二項分配
– 投十球,只要投中三球才罷手,則所需要的試驗次數將
會具有負二項分配。
• 超幾何分配
– 袋中黑白兩種球,每次取出一球不放回,黑球總數呈現
超幾何分配。
8. EDBA/EMBA
超幾何分配
• 統計實驗包含數次試驗 ( 試驗結果只有成功與失敗兩種),
每次試驗中成功機率固定,但每次試驗結果卻不是獨立:
即前面試驗結果會影響後面試驗結果 , 成功次數會呈現超幾
何分配
• 例:袋中黑白兩種球,每次取出一球不放回,黑球總數呈
現超幾何分配。
• 參數:試驗次數 n ;所有球個數 N ;試驗成功個數 k
k N − k
x n − x
• 機率函數: f x ( x) =
N , max{0,n-(N-k)≦x≦min{n,k}
n
9. EDBA/EMBA
假設檢定( Hypothesis Testing )
• 定義:利用樣本觀察值計算母體參數 θ 的樣本統計量 T
( X1,X2,..Xn ),並做出是否棄卻假設的推論。
• 目的:檢定有興趣的母體參數是否會落入信賴區間的範圍
之內。
• 假設檢定的主要課題就是控制發生較嚴重的型 I 錯誤機率在
一個很小的數值,例如不超過 10% 、 5% 或 1% 。而同時
冀望型 II 錯誤發生的機率越小越好。換句話說,假設檢定
也是利用機率敘述量化的抽樣誤差。
• 因為由樣本資訊推論母體特性,因此錯誤無法避免,所以
:
– 型 I 錯誤( Type I Error ):錯誤棄卻 H0 。又稱為生產者風險
( Producer’s Risk ),發生機率常以 α 表示。
– 型 II 錯誤( Type II Error ): H0 為偽時未棄卻 H0 。又稱為消費者
風險( Costumer’s Risk ),發生機率常以 β 表示。
10. EDBA/EMBA
區間估計
• 利用【樣本】 {X1,X2,..Xn} 建出一個很可能會包含有興趣【母
體參數 θ 】的區間 (L,U) :亦即 P(L<θ<U)=1-α
• 1-α 稱為【信賴水準】,通常設定為 99% 、 95% 、 90%
• (L,U) 稱為【信賴區間】; L 為下界, U 為上界。
• 信賴區間的建立通常奠基於點估計量 的抽樣分配。
• 例:用【樣本平均數 】Χ
• 去估計【母體平均數 μ 】時,∵ 的抽樣分配 N(μ, Χ
σ2/n) ,
σ
• ∴當 σ 已知時,2 ( L, U ) = (1.96)( )
n
σ σ
P ( x − (1.96)( < µ < + (1 96)( )) = 95%
• 【信賴水準】為) 95%x 之 .μ 的【信賴區間】為
n n
σ
• 亦即 P( x − µ < (1.96)( )) = 95%
n
• 可以改寫成
11. EDBA/EMBA
信賴 區間( Confidence Interval )
• 信賴區間的建立就如同是利用所觀察到的一
組樣本 θ 去從事一連串的假設檢定。
• 90% 信賴 水準的含意
– 重做 n (如: n=100 )次所出現的 n ( 100 )個信賴區
間中,有 90% ( 90 個)的區間可以包含母體參數 θ 。
• 顯著水準( Significance Level )
– 用以判定 p- 值大小的標準:當所計算 p- 值小於所設定
的顯著水準時,樣本統計量(觀察值)與假設為真期望
值有顯著落差,則棄卻假設。
12. EDBA/EMBA
中央極限定理( Central Limit Theorem,
CLT ) {X1 、 X2 、…、 Xn} 為一組抽自【母體】的【隨機樣
• 定義:
本】。當樣本數夠大時,樣本平均數 Χ 會呈現常態分配
• 不論母體具有何種機率分配(通常也不知母體具備何種分
配)只要樣本數 n 夠大【樣本平均數Χ 】都會呈現常態分
配。 x−µ
σ
• 何時用:當用【機率】敘述量化【統計誤差】
P( x − µ < 2 ) = 95% 大小時
n
。
• 怎麼用:
13. EDBA/EMBA
常態分佈 的例子
• 今將有標籤之 100 隻魚丟 入池中,過了一陣
子再隨機抓取 30 隻魚,發現 7 隻釘有標籤
,是否能接受魚池中魚隻總數為 1000 之假
設?
答 : 樣本統計量:隨機抓取 30 隻魚,發現 x 隻釘
有標籤,假設 H0 : N=1000 ,預期 (30)
100 900
(100/1000)=31000) = x 30 − x = 0.023869x=7> ,預期
隻釘有標籤,觀察
∑
30
p − 值 = P( x ≥ 7 H : N =
=3 1000
x =7
30
若設 5% 顯著水準
∵p- 值 < 顯著水準 ∴棄卻 H
14. EDBA/EMBA
常態分佈 的例子
• 假設已知養豬場豬體重標準差 σ 為 5 公斤,
今隨機抓取 16 隻豬並算得平均體重為 80 公
斤,是否能接受養豬場平均體重 82 公斤之
假設 H ? Χ
答 : 樣本統計量 =80 ,假設 H0 : μ=82 ,樣本
數− n=16x ,標準差Pσ=5 ,觀察 = =80<1.H0 : μ=82
p 值 = P ( ≤ 80 H )= (
x − 82 80 − 82
:µ =82 ≤ ) P ( Z ≤ − 6)
5 5
16 16
= Φ (−1.6) = 0.054799
若設 5% 顯著水準
∵p- 值>顯著水準 ∴不能棄卻 H0
15. EDBA/EMBA
用 R 軟體計算 (1/4)
• 共有 300 標籤的魚,第一次撈 50 隻,有 15 隻有
標記,問信賴區間是 80% 的上下界為何?
>phyper(15,300,459,50)
[1] 0.09973752
>1-phyper(14,300,1090,50)
[1] 0.0999134
• 共有 300 標籤的魚,第一次撈 500 隻,有 150 隻
有標記,問信賴區間是 80% 的上下界為何?
> phyper(150,300,639,500)
[1] 0.09740477
>1-phyper(149,300,771,500)
[1] 0.09890952
16. EDBA/EMBA
用 R 軟體計算 (2/4)
• 驗 20 個,看到四個不良品,問信賴區間是 80% 的
不良率
> pbinom(4, 20, 0.361)
[1] 0.09946057
> 1-pbinom(3, 20, 0.09)
[1] 0.099332
• 驗到第 20 個,發現第四個不良品,問信賴區間是
80% 的不良率
> pnbinom(20, 16, 0.329)
[1] 0.09915856
> 1-pnbinom(20, 15, 0.523)
[1] 0.09888824
17. EDBA/EMBA
用 R 軟體計算 (3/4)
• 90% CI for P based on t=7, when T:no of
defectives in 40 inspechions
> pbinom(7,40,0.304)
[1] 0.04959917
> 1-pbinom(6,40,0.085)
[1] 0.04965145
• 90% CI for P based on t=70, when T:no of
defectives in 400 inspechions
> pbinom(70,400,0.210)
[1] 0.04646903
> 1-pbinom(69,400,0.144)
[1] 0.04781904
18. EDBA/EMBA
用 R 軟體計算 (4/4)
• 90% CI for P based on t=7000, when T:no of
defectives in 40000 inspechions
> pbinom(7000,40000,0.178)
[1] 0.05889936
> 1-pbinom(6999,40000,0.175)
[1] 0.5020561
• 90% CI for based on t=45, when T:no of
inspechions requioned to find the 2nd defective
> pnbinom(45,43,0.396)
[1] 0.04870215
> 1-pnbinom(45,42,0.565)
[1] 0.0494577