SlideShare a Scribd company logo
1 of 195
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Nguyễn Xuân Cự
BÀI GIẢNG
PHƯƠNG PHÁP THỐNG KÊ
TRONG KHOA HỌC NÔNG NGHIỆP
VÀ MÔI TRƯỜNG
(Lưu hành nội bộ)
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Hà Nội , 2008
MỤC LỤC
Đ I H C QU C GIA HÀ N IẠ Ọ Ố Ộ .........................................................................1
TR NG Đ I H C KHOA H C T NHIÊNƯỜ Ạ Ọ Ọ Ự ..................................................1
Nguy n Xuân Cễ ự............................................................................................1
BÀI GI NGẢ ......................................................................................................1
PH NG PHÁP TH NG KÊƯƠ Ố .........................................................................1
TRONG KHOA H C NÔNG NGHI PỌ Ệ ............................................................1
VÀ MÔI TR NGƯỜ ...........................................................................................1
(L u hành n i b )ư ộ ộ ............................................................................................1
Hà N i , 2008ộ ..................................................................................................2
M C L CỤ Ụ ........................................................................................................2
PH N 1. PH NG PHÁP TH NG KÊ MÔ TẦ ƯƠ Ố Ả..............................................3
CH NG 3. LÝ THUY T XÁC SU TƯƠ Ế Ấ ..........................................................26
CH NG 4. GI I THI U V CÁC KHÁI NI M L Y M UƯƠ Ớ Ệ Ề Ệ Ấ Ẫ ..........................48
Ch ng 5. C L NG CÁC THAM Sươ ƯỚ ƯỢ Ố....................................................64
S TRUNG BÌNH VÀ T L PH N TRĂMỐ Ỷ Ệ Ầ ..................................................64
PH N 3. KI M Đ NH GI THI T TH NG KÊẦ Ể Ị Ả Ế Ố ..............................................74
V CÁC THAM S Đ C TR NG M UỀ Ố Ặ Ư Ẫ ........................................................74
Ch ng 6. KI M Đ NH GI THI T TRONG TR NG H P M T M Uươ Ể Ị Ả Ế ƯỜ Ợ Ộ Ẫ .....74
Ch ng 7. KI M TRA GI THI T TRONG TR NG H P HAI M Uươ Ể Ả Ế ƯỜ Ợ Ẫ .........91
Ch ng 8. PHÂN TÍCH PH NG SAIươ ƯƠ .......................................................105
PH N 4 PH NG PHÁP KI M Đ NH PHI THAM SẦ ƯƠ Ể Ị Ố...............................128
CH NG 9 PHÂN TÍCH KHI BÌNH PH NG (χ2)ƯƠ ƯƠ ...................................128
Ch ng 10. M T S PH NG PHÁP KHÁCươ Ộ Ố ƯƠ ..........................................143
KI M Đ NH PHI THAM SỂ Ị Ố.........................................................................143
PH N 5. KI M TRA S LIÊN K T VÀ D ĐOÁNẦ Ể Ự Ế Ự .....................................158
Ch ng 11. T NG QUAN VÀ H I QUY Đ N GI Nươ ƯƠ Ồ Ơ Ả ...............................158
Ch ng 12. T NG QUAN B I (H I QUI NHI U BI N)ươ ƯƠ Ộ Ồ Ề Ế .........................177
2
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
PHẦN 1. PHƯƠNG PHÁP THỐNG KÊ MÔ TẢ
Chương 1. GIỚI THIỆU CHUNG
Thống kê có vai trò to lớn trong phân tích các số liệu thí nghiệm và giải thích
các kết quả nghiên cứu. Học phần này nhằm cung cấp những khái niệm và các yêu
cầu cơ bản của phép thống kê trong khoa học nông nghiệp và khoa học môi trường.
Từ thống kê có nghĩa riêng và có nghĩa chung. Theo nghĩa riêng thống kê
(statistics) là một lĩnh vực khoa học tương tự như nông học, đất, khoa học môi
trường,... theo nghĩa chung nó là những tập hợp các số liệu được thu thập được.
Trong thống kê bao gồm cả lý thuyết và phương pháp xử lý tính toán. Thống
kê là phương pháp và công cụ dùng phân tích các tập hợp số liệu để có những quyết
định tốt hơn.
Phương pháp thống kê có nghĩa rất lớn trong phân tích và đánh giá số liệu
và được áp dụng cho nhiều ngành khoa học khác nhau. Ví dụ các nhà khoa học
trồng trọt khi giúp nông dân nâng cao năng suất cây trồng từ các thí nghiệm đồng
ruộng có nhiều khác biệt với các vùng sản xuất khác nhau. Các nhà kinh tế nông
nghiệp lại sử dụng để dự báo yêu cầu trong tương lai.
Chương 2. PHƯƠNG PHÁP THÔNG KÊ MÔ TẢ
Mục tiêu:
3
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
- Tổ chức và tóm tắt số liệu một cách có hiệu quả
- Tính toán các xu hướng tập trung, phân tán và các tham số đặc trưng mẫu
(số liệu trung bình, trung vị, số trội, ... và ý nghĩa của nó).
- Tính toán sự biến động của số liệu (khoảng dao động, phương sai, độ lệch
chuẩn) và ý nghĩa của chúng.
2.1. Giới thiệu về thống kê mô tả
Các số liệu được thu thập trong khoa học môi trường cũng như nông nghiệp
nói chung và khoa học đất nói riêng khi chưa dược xử lý và phân tích sẽ rất khó
đánh giá và đưa ra những quyết định đúng đắn trong việc sử dụng số liệu này. Tập
hợp các số liệu quan trắc có thể có nhiều cách xử lý khác nhau. Thông thường có thể
tổ chức theo thứ tự từ giá trị nhỏ nhất đến giá trị lớn nhất. Cách sắp xếp này có thể
cung cấp được nhiều thông tin có ý nghĩa.
Ví dụ 2.1. Một nhà khoa học nông nghiệp khi phân tích ảnh hưởng của
Thiamine hydrochloride (vitamin B1) dến sinh trưởng của cây cà chua. Có 50 cây cà
chua được xử lý bằng Thiamine hydrochloride được đo chiều cao một cách ngẫu
nhiên, sau 14 ngày xử lý cho kết quả như sau:
Bảng 2.0. Ảnh hưởng của Thiamine hydrochloride dến chiều cao cây cà chua
(cm)
21,8 21,6 22,5 21,8 21,8 23,4 22,7 21,5 24,0 22,9
22,0 21,8 23,0 22,2 23,2 23,3 22,6 23,2 23,9 22,7
22,3 23,1 22,4 22,1 22,6 21,9 22,8 22,2 24,2 23,2
22,1 23,2 22,9 22,5 23,8 22,6 23,7 22,8 22,8 23,5
22.9 23,3 23,0 23,0 22,9 22,5 22,1 23,5 22,5 23,6
Giải:
Bước 1: Sắp xếp các số liệu quan trắc ở bảng 2.0 theo thứ tự từ nhỏ dến lớn như
ở Bảng 2.1. Các số liệu này đã cho ta biết một số thông tin cơ bản, ví dụ như độ cao
của cây cà chua dao động từ 21,5 đến 24,5 cm. Sự chênh lệch giữa cây thấp nhất và
4
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
cây cao nhất quan sát dược là 2,7 cm. Số cây có độ cao 21,5 - 22,8 cm chiếm 50%
số cây quan trắc và 50% số cây cao từ 22,8 cm đến 24,2 cm. Hơn nữa sự sắp xếp
này cũng chỉ rõ mức độ tập trung hoặc phân tán của các giá trị quan trắc xung quanh
độ cao trung bình. Trong thí nghiệm này, cây có độ cao phổ biến ở khoảng 22,5 -
22,9 và 23,2 cm. Trong khi đó ít cây có độ cao 21,5 - 21,6 - 23,1 – 24,0 và 24,2 cm.
Bảng 2.1. dãy số liệu quan trắc chiều cao cây cà chua theo thứ tự từ nhỏ đến lớn
21,5
21,6
21,8
21,8
21,8
21,9
21,9
22,0
22,1
22,1
22,1
22,2
22,2
22,3
22,4
22,5
22,5
22,5
22,5
22,6
22,6
22,6
22,8
22,8
22,9
22,9
22,9
22,9
23,0
23,0
23,0
23,1
23,2
23,2
23,2
23,2
23,3
23,3
23,4
23,5
23,5
23,6
23,7
23,8
5
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
22,7
22,7
22,8
23,9
24,0
24,2
Tuy nhiên với cách sắp xếp này chúng ta cũng rất khó xác định độ cao trung
bình của cây cà chua, đặc biệt là khi số liệu quan trắc càng lớn.
Để có cách nhìn rõ ràng hơn người ta sắp xếp dãy số liệu quan trắc theo tần
suất xuất hiện của chúng và được gọi là sự phân bố tần suất.
2.2. Phân bố tần suất
Trong phân bố tần suất, các số quan trắc được sắp xếp theo thứ tự lớn dần
của các giá trị quan trắc bắt gặp và số lần quan trắc (Bảng2.2).
Bảng 2.2 Phân bố tần suất cho số liệu ở Bảng 2.1
Chiều cao cây cà chua (cm) Tần suất
21,5
21,6
21,8
21,9
22,0
22,1
22,2
22,3
22,4
22,5
22,6
22,7
22,8
1
1
3
2
1
3
2
1
1
4
3
2
3
6
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
22,9
23,0
23,1
23,2
23,3
23,4
23,5
23,6
23,7
23,8
23,9
24,0
24,2
4
3
1
4
2
1
2
1
1
1
1
1
1
Cũng có thể sắp xếp các số liệu theo từng nhóm giá trị không trùng lặp
nhau. Số lượng các nhóm giá trị phân chia phụ thuộc vào số liệu các quan trắc. Khi
các só liệu quan trắc càng nhiều thì số các nhóm cũng càng lớn. Tuy nhiên thông
thường người ta chia thành 5 đến 15 nhóm giá trị khác nhau. Theo Sturges (1926) số
lượng các nhóm được xác định theo công thức sau:
k= 1+3,322(lgn) [2.1]
Trong đó: k = Số lượng nhóm
n= số lần quan trắc
Theo luật Sturges, các số liệu ở bảng 2.0 sẽ được chia thành 7 nhóm như sau
được trình bày ở Bảng 2.3. Trong đó số nhóm k được xác định như sau:
k = 1 + 3,322 (lg50) = 1 + 3,322 (1,6989) = 7
Như vậy với tập hợp của 50 giá trị quan trắc, các số liệu sẽ được chia thành
7 nhóm (Bảng 2.3).
7
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Sự sắp xếp như ở Bảng 2.3 đã chỉ rõ các nhóm giá trị và tần suất của các giá
trị quan trắc của chúng. Cụ thể là 5 cây cà chua có độ cao 21,5 - 21,8 và 8 cây có độ
cao 21,9 - 22,2 cm, ... Các số liệu ở bảng 2.3 cũng có thể được biểu diến dưới dạng
biểu đồ đa giác tần suất hoặc nối các điểm giữa giá trị các nhóm.
-Tính tần suất tương dối: Tần suất tương đối là khi giá trị tần suất được biểu thị
dưới dạng các tỷ lệ tương đối hay tỷ lệ phần trăm.
Tần suất tương đối
n
Fi
=
Trong đó: Fi = tần suất của nhóm thứ i
n = số lần quan trắc
Bảng 2.3 Phân bố tần suất theo nhóm
Ví dụ như ở nhóm 2 (Bảng 2.3) ta có:
Tần suất tương đối của nhóm thứ hai là 8/50 = 0,16
hay biểu diễn dưới dạng phần trăm ta có:
Số phần trăm là %16100
50
8
100 == xx
n
Fi
8
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Từ số liệu bảng 2.1 có thể biểu diễn dưới dạng tần suất tương đối như sau
(Bảng 2.4).
Bảng 2.4 Tần suất tương đối và phần trăm cho số liệu ở Bảng 2.3
Nhóm chiều cao
(cm)
Tần
suất (f)
Tần suất
tương đối (f/n)
Phần trăm
(f/n) x100
21,5-21,8
21,9-22,2
22,3-22,6
22,7-23,0
23,1-23,8
23,5-23,8
23,9-24,2
5
8
9
12
8
5
3
0,10
0,16
0,18
0,24
0,16
0,10
0,06
10
16
18
24
16
10
6
n =
50
2.3. Xác định xu hướng tập trung của các giá trị quan trắc
Thông thường người ta hay nói đến giá trị trung bình. Tuy nhiên giá trị
trung bình chỉ đơn thuần là giá trị ở giữa của một tập hợp nhiều giá trị quan trắc. Do
vậy để đặc trưng cho xu hướng tập trung của mẫu có nhiều giá trị khác nhau được sử
dụng như số trung bình cộng, số trung vị và số trội.
- Số trung bình cộng (Mean): Đây là giá trị được xác định bằng thương số của tổng
các giá trị quan trắc với số lần quan trắc được biểu diễn là X :
]32[ −=
∑
N
X
X
∑=
=
+++
=
n
i
n
n
Xi
n
XXX
X
1
21 ...
Nếu Xi có tần suất là mi ta có
9
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
∑∑ ==
=
+++
+++
=
k
i
iii
k
ik
kk
mXm
mmm
XmXmXm
X
1121
2211
...
...
Chú ý:
∑ ∑= =
=
k
i
n
i
iii XXm
1 1
và ∑=
=
k
i
i nm
1
Ví dụ 2.3: Giá thóc trung bình bán ra ở 20 trang trại được thống kê như sau, hãy xác
định giá thóc trung bình được bán ra?
Trang trại Giá thóc (đ/kg) Trang trại Giá thóc (đ/kg)
1
2
3
4
5
6
7
8
9
10
2000
3500
2100
3000
2400
3100
2600
2300
3000
2100
11
12
13
14
15
16
17
18
19
20
2200
2250
1750
1800
3200
2900
3100
3600
3400
3800
Giải:
2705
20
38003400...35002000
=
++++
=X (đ/kg)
Như vậy giá thóc trung bình được bán ra là 2795 nghìn đồng/kg.
Ý nghĩa của số trung bình cộng:
+ Trung bình cộng là một giá trị tổng hợp cô đọng đặc trưng tiêu biểu cho
toàn bộ các giá trị quan trắc của một tập hợp.
10
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
+ Trung bình cộng là biểu diễn xu hướng tập trung của mẫu quan trắc trên
một đặc trưng giống nhau. Nhưng trung bình cộng chưa biểu thị được đặc điểm thứ
hai của một mẫu là xu hướng phân tán của các số liệu. .
+ Tổng sai số các giá trị quan trắc Xi với giá trị trung bình cộng X luôn
bằng 0. Tức là:
( ) 0
1
=−∑=
n
i
i xx
- Số trung bình trọng số (Weighted mean):
Trong nhiều trường hợp, tập hợp mẫu quan trắc bao gồm từ nhiều nhóm có
những dặc tính khác nhau. Số trung bình chung được tính từ các số trung bình của
từng nhóm riêng rẽ. Như vậy nếu tính trung bình cộng có nghĩa là ta coi sự đóng góp
của các nhóm là như nhau. Để phân biệt sự tham gia không ngang nhau của các
nhóm ta cần thiết phải thêm các trọng số để bảo đảm tính cân bằng khi tính số trung
bình chung.
Ta có:
w
wX
wX
∑
∑=
Trong đó w = trọng số áp dụng cho giá trị X
X = Gía trị quan trắc
Ví dụ: Một nhà khoa học nông nghiệp xác định năng suất ngô của các giống
khác nhau. Số liệu quan trắc được ghi ở Bảng 2.5.
Bảng 2.5 Năng suất ngô trong thí nghiệm
Giống
ngô
X
(tạ/ha)
diện tích
(ha)
Sản lượng
A
B
C
130,7
144,3
140,0
64
63
66
8364,8
9090,9
9240,0
11
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
D
Tổng
120,0 51
254
6120,0
32.815,7
Từ số liệu bảng 2.5, nếu tính số trung bình chung cho 4 giống ta có giá trị
trung bình X= 133,75 tạ/ha. Tuy nhiên trong trường hợp này các giống dược trồng
trên những diện tích khác nhau nên cần thêm các trọng số (diện tích) cho từng từng
giống ngô. Hay ta nhân cột (1) với cột (2). Theo cách tính số trung bình trọng số ta
có:
49,134
254
7,32815
===
∑
∑
w
wX
wX (tạ/ha)
- Số trung vị (Median):
Số trung vị (Med) được xác định là số đứng giữa của một dãy số liệu được
sắp xếp theo trật tự giảm dần hoặc tăng dần. Trong trường hợp tỏng số quan trắc là
lẻ thì trị số sẽ là số có vị trí ở giữa dãy số liệu, còn khi số quan trắc là số chẵn thì nó
có giá trị là giá trị trung bình của hai quan trắc đứng giữa dãy số liệu.
Số trung vị có thể có giá trị bằng hoặc khác các số trung bình và số trội tuỳ
theo phân bố của chúng. Nếu phân bố của biến ngẫu nhiên đối xứng và có một số
trội (Mode) thì cả 3 đặc trưng số trung bình cộng (Mean), số trung vị (Median) và số
trội (Mode) là trùng nhau. Nếu phân bố đối xứng thì dùng Mean định vị là tốt nhất,
trong khi nếu phân phối quá lệch thì dùng số trung vị (Median) và số trội (Mode) để
định vị sẽ tốt hơn.
Ý nghĩa của số trung vị: Số trung vi chia tập hợp các số liệu quan trắc thành
2 phần bằng nhau. Nghĩa là có một nửa các số liệu có giá trị nhỏ hơn và một nửa có
giá trị lớn hơn số trung vị.
Ví dụ 2.5: Tỷ P2O5 trong 6 loại phân bón có chứa phốt pho như sau, xác định
Med của chúng.
S Loại phân P2O5
12
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
TT bón (%)
1
2
3
4
5
6
11-4,6-0
13-39-0
16-20-0
16-48-0
15-62-0
10-34-0
46
39
20
48
62
34
Giải: Trước hết ta phải sắp xếp tỷ lệ phần trăm P2O5 của các loại phân bón
theo thứ tự tăng dần như sau: 20-34-39-46-48-62. Áp dụng công thức tính Med ta
có:
5,42
2
4639
=
+
=Med
Giả sử ta chỉ có 5 loại phân bón khác nhau (không có loại phân thứ 6), lúc
đó ta có Med = 39
Nói tóm lại trong trường hợp dãy số liệu với n là số lẻ thì trọng số sẽ là số
thứ (n+1)/2. Còn nếu n là số chẵn thì số trung vị sẽ là giá trị trung bình cộng của trị
số thứ (n/2) và [(n/2)+1].
- Số trung vị trong phân bố tần suất:
Khi tính số trung vị trong trường hợp phân bố tần suất hoặc gộp các số liệu
thành từng lớp thì cũng làm tương tự như trường hợp trên. Số trung vị dược xác định
theo công thức:
( )i
f
CFn
LMed 




 −
+=
2
[2-7]
Trong đó: L = Giá trị thấp hơn giới hạn dưới của lớp có chứa trung vị
n = Tổng số các tần suất
CF = Tần suất tích luỹ tính đến lớp có chứa số trung vị
13
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
i = Khoảng cách của lớp
f = Tần suất của lớp chứa số trung vị
Ví dụ 2.6: Trong một lần điều tra về thu nhập của người dân, nhà kinh tế nông
nghiệp đã thu được các số liệu ở Bảng 2.7. Hãy tính số trung vị về thu nhập của
người dân trong các nhóm được điều tra.
Bảng 2.7. Tính toán số trung vị của phân bố tần xuất
Thu nhập hàng năm
(triệu đồng)
Số người dân
(f)
Tần suất tích luỹ
(CF)
10,000-14,999
15,000-19,999
20,000-24,999
24,999-29,999
30.000-34,999
35,000-39,999
40,000-44,999
45,000-49,999
50,000 trở lên
Tổng
5
7
10
12
14
20
16
19
17
120
5
12
22
34
48
68
84
103
120
Giải:
- Bước 1: Cần xác định giá trị n/2; trong trường hợp này n/2=120/2=60. Chúng
ta hy vọng là người nông dân thứ 60 sẽ đại diện cho thu nhập trung bình của cả
nhóm đã được điều tra.
- Bước 2: Xác định tần suất tích luỹ như kết quả ở cột CF của bảng 2.7. Các gía
trị này cho biết n/2 nằm ở vị trí nào. Từ bước thứ nhất ta biết rằng số trung bình sẽ
nằm ở lớp có chứa tần suất tích luỹ là 60. Tức là ở lớp có thu nhập 35,000-39,999
14
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
triệu động/năm. Giá trị thấp hơn giới hạn dưới của lớp này là 34,9995 và cao hơn
giới hạn trên là 39,9995. Theo phương pháp tính toán đã nói ở trên chúng ta sử dụng
giá trị thấp hơn giới hạn dưới của lớp có chứa số trung vị. Bởi vì tần suất tích luỹ
của 5 lớp đầu là 48 và 6 lớp đầu là 68. Do vậy số trung vị sẽ nằm ở vị trí nào đó giữa
lớp thứ 5 và thứ 6.
- Bước 3: Xác định có bao nhiêu trường hợp sẽ được cộng vào lớp thấp hơn từ
lớp cao hơn dể có giá trị n/2 hoặc 60 trường hợp. Vì lớp 5 có tần suất tích luỹ là 48,
nên cần có thêm 12 trường hợp nữa nằm trong lớp thứ 6. Như vậy số trung vị sẽ lấy
giá trị 12/20 trong khoảng 34,9995 và 39,9995.
Áp dụng công thức [2-7] ta có:
( ) ( ) 9995,37000,5
20
482120
9995,34
2
=




 −
+=




 −
+= i
f
CFn
LMed
Như vậy số trung vị về thu nhập của người sản xuất là 37,9995 triệu
đồng/năm. Hay có một nửa số người sản xuất có thu nhập dưới 37,9995 triệu
đồng/năm và một nửa còn lại sẽ có thu nhập cao hơn.
- Số trội (Mode): Số trội là một giá trị (hoặc nhiều giá trị) mà chúng có tần suất
lớn vượt trội. Số trội được ký hiệu là Mod.
Khác với giá trị Mean và Med, số trội được xác định trên cơ sở chuỗi số liệu
hoặc biểu đồ tần suất. Nó cho biết giá trị thường gặp nhất của X trong một dãy số
liệu quan trắc.
Ví dụ 2.7: Một nhà nghiên cứu khi quan sát khả năng nảy mầm của loại hạt
giống thu được dãy số liệu về thời gian các hạt giống nảy mầm như sau: 4 – 5 – 7 –
4 – 5 – 5 – 6 – 6 – 5 – 4 – 5 – 4 – 6 – 5 – 5 ngày. Hãy xác định Mod của tập hợp số
liệu này.
Giải: Từ dãy số liệu trên cho thấy giá trị 5 ngày được ghi nhận ở 7 trường
hợp là nhiều nhất. Do vậy số trội của dãy số liệu này là 5 ngày.
15
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Cần chú ý rằng có nhiều dãy số liệu không có số trội. Ví dụ như 4 giá trị
quan trắc về ngày nảy mầm của hạt là 4 - 5 - 6 - 7 ngày. Ngược lại cũng có dãy số
liệu có thể có hai hay nhiều số trội. Ví dụ dãy quan trắc sự nảy mầm của hạt vào các
ngày 4 - 4 - 4 – 5 - 6 - 7 - 5 - 5 - 6 - 4 - 5. Ta có hai số trội là 4 ngày và 5 ngày.
Với sự phân bố tần suất, chẳng hạn như ở Bảng 2.7, số trội là xấp xỉ với lớp
trội. Lớp trội cũng là lớp có tần suất lớn nhất. Để xác định số trội trong trường hợp
này cần giả thiết rằng tần suất có phân bố đồng nhất ở tất cả các lớp. Trong ví dụ
này, lớp thứ 6 có tần suất 20 là lớp trội. Do vậy số trội được tính như sau:
4995,37
2
999,4
000,35 =+
Khi phân bố tần suất không thuần nhất ở các lớp, ta sẽ tính số trội theo công
thức:
( )i
dd
d
LMod 





+
+=
21
1
Trong đó L: Giá trị thấp hơn giới hạn dưới của của lớp trội
d1: Sự khác nhau giữa tần suất của lớp trội với tần suất của lớp
trước nó
d2: Sự khác nhau giữa tần suất của lớp trội với lớp tiếp theo
i: Khoảng cách của lớp trội
Với ví dụ ở Bảng 2.7, ta có:
( )i
dd
d
LMod 





+
+=
21
1
= ( ) 9995,37000,5
)1620()1420(
1420
9995,34 =





−+−
−
+
Giá trị trung bình (Mean) được dùng rất phổ biến biểu thị kích thước trung
bình của tập hợp các số liệu quan trắc khi không có giá trị vượt trội đặc biệt. Trong
khi đó số trung vị (Median) sẽ không bị ảnh hưởng bởi các giá trị vượt trội. Tuy
nhiên số trung vị sẽ không phản ánh đúng kích thước trung bình của tập hợp mẫu
khi có vấn đề trong lấy mẫu. Trong trường hợp này số trung bình cộng sẽ có ý nghĩa
16
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
tốt hơn. Số trội là đại diện cho kích thước trung bình của tập hợp mẫu vì nó không bị
ảnh hưởng bởi dạng đường cong phân bố. Tuy nhiên hạn chế của số trội là nó không
có sự tính toán chính xác. Hơn nữa do điều kiện lấy mẫu, số trội là ít có tính xác
thực hơn.
2.4. Xác định sự biến động hay độ phân tán mẫu
Mức độ biến động hay độ phân tán mẫu là khoảng giá trị sai khác của các
giá trị quan trắc so với giá trị trung bình. Nhìn chung khoảng cách từ gía trị quan
trắc so với giá trị trung bình càng lớn thì mức độ phân tán của mẫu cũng càng lớn.
Để biểu diễn mức độ phân tán của mẫu, người ta thường dùng các giá trị độ biến
thiên, độ lệch trung bình, phương sai, độ lệch chuẩn.
-Khoảng biến thiên (Range): Là sự sai khác giữa giá trị nhỏ nhất và lớn nhất
trong dãy số liệu:
R= X max – X min [2-9]
Ví dụ 2.8: Trong dãy số liệu là 4,2-6,7-3,4-2,3-7,9 ta có khoảng dao động là:
R= 7,9-2,3=5,6
Việc xác định khoảng dao động là đơn giản, tuy nhiên nó chỉ đề cập đến 2 giá
trị trong dãy số liệu nên không phản ánh chính xác độ phân tán thực của mẫu.
- Độ lệch trung bình (Average deviation): Độ lệch trung bình được xác định
là sự sai khác trung bình của các giá trị quan trắc với giá trị trung bình cộng. Khi
tính toán, tổng của các độ lệch này luôn luôn bằng 0.
( )∑ =− 0XXi
Từ số liệu của ví dụ 2.8 ta có:
( ) ( ) ( ) ( ) ( ) ( )9,49,79,43,29,44,39,47,69,42,4 −+−+−+−+−=−∑ XXi
00,36,25,18,17,0 =+−−+−=
17
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Trong xác định độ lệch trung bình, chúng ta cần thay đổi cách tính để được
một số có ý nghĩa bằng cách không chú ý đến các dấu số học. Khi đó ta lấy tổng các
gía trị tuyệt đối của các độ lệch rồi chia cho n sẽ được độ lệch trung bình:
n
xx
AD
∑ −
= [2-10]
Trong đó AD = độ lệch trung bình
x = Giá trị của mỗi lần quan trắc
X = Số trung bình cộng
n = Số lần quan trắc
Ví dụ 2.9: Lấy số liệu từ ví dụ 2.8 ta có
92,1
5
0,36,25,18,17
5
9,49,7...9,47,69,42,4
=
++++
=
−++−+−
=AD
Như vậy giá trị độ lệch trung bình của mẫu là 1,92.
- Phương sai (Variance): Phương sai của một mẫu là trung bình độ lệch bình
phương của các giá trị quan trắc so với giá trị trung bình. Phương sai của biến ngẫu
nhiên là một số không âm dùng để chỉ mức độ phân tán của biến ngẫu nhiên xung
quanh tâm của nó.
Công thức tính phương sai của một tổng thể như sau:
( ) 2
2
N
Xi∑ −
=
µ
σ
Trong đó 2
σ = Phương sai của một tổng thể
x = Giá trị quan trắc
µ = Giá trị trung bình của tổng thể
N= Số quan trắc trong tổng thể
Đối với một mẫu, thì phương sai được tính theo công thức:
18
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
( )2
2
1−
−
=
∑
n
xx
S
i
Trong đó: S2
= Phương sai mẫu
x= Giá trị quan trắc
x = Số trung bình mẫu
n= Số quan trắc trong mẫu
Ví dụ 2.10: Một nhà khoa học khi nghiên cứu đã cho thấy ô nhiễm dầu ở đại
dương do sự cố tràn dầu đã có ảnh hưởng đến sự sinh trưởng của các vi khuẩn.
Nghiên cứu trên 20 mẫu nước biển cho thấy kết quả số vi khuẩn trong 100 ml nước
biển như sau, hãy xác định phương sai của quần thể vi sinh vật này.
32 56 72 45 52 74 53 42 58 61
59 40 36 76 55 75 62 48 35 39
Giải:
95,53
20
1079
===
∑
N
X
µ
Ta có:
( )
0,189
20
9,3780
2
2
==
−
=
∑
N
X µ
σ
X µ−X ( )2
µ−X
32
65
72
-21,95
11,05
18,05
48,18
122,1
325,8
19
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
45
52
74
53
42
58
61
59
40
36
76
55
75
62
48
35
39
1079
-8,95
-1,95
20,05
-0,95
-11,95
4,05
7,05
5,05
-13,95
-17,95
22,05
1,05
21,05
8,05
-5,95
-18,95
-14,95
0,0
80,1
3,8
402,0
0,9
142,8
16,4
49,7
25,5
191,6
322,2
486,2
1,1
443,1
64,8
35,4
359,1
223,5
3780,9
Giá trị phương sai chỉ có nghĩa để so sánh độ phân tán mẫu của 2 hoặc nhiều
mẫu nghiên cứu. Trong một mẫu giá trị phương sai không có ý nghĩa so sánh vì số
189 không phải là số lượng vi khuẩn thực tế mà là số bình phương. Do vậy để sử
dụng chúng người ta phải chuyển phương sai thành độ lệch chuẩn bằng cách khai
căn bậc 2 giá trị phương sai.
20
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
5,13189 ==σ (vi khuẩn)
Vì số vi khuẩn phải là số nguyên nên ta làm tròn thảnh 14 con vi khuẩn.
Cũng có thể tính phương sai bằng phương pháp ngắn gọn hơn theo công thức
sau:
22
2








−=
∑∑
N
X
N
X
σ
Với ví dụ 2.10 ta có:
0,189
20
39...6532
20
39...6532
2222
2
=




 +++
−
+++
=σ
- Độ lệch chuẩn (Standard deviation): Độ lệch chuẩn là giá trị căn bậc 2 của
phương sai. Nó có ý nghĩa lớn thể hiện sự phân tán của mẫu và được dùng để so
sánh sự phân tán của các mẫu khác nhau. Khi mẫu có độ lệch chuẩn càng lớn chứng
tỏ mức độ phân tán của mẫu cũng càng lớn. Công thức để tính độ lệch chuẩn cho
một tổng thể như sau:
( )
N
X∑ −
=
2
µ
σ [2-14]
Hoặc ngắn gọn hơn, có thể áp dụng công thức:
22








−=
∑∑
N
X
N
X
σ [2-15]
Đối với một mẫu ta áp dụng công thức sau:
( )
1
2
−
−
=
∑
n
XX
S [2-16]
Hoặc tính ngắn gọn theo công thức:
( )
1
2
2
−
−
=
∑ ∑
n
n
X
X
S
[2-17]
21
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Cần chú ý rằng độ lệch chuẩn của mẫu sẽ lấy mẫu số là n-1. Theo Mason
(1982) nếu sử dụng n thay cho n-1 thì độ lệch chuẩn sẽ bị nhầm lẫn với cách tính
của tổng thể, đặc biệt là khi kích thước của mẫu nhỏ.
Ví dụ 2.11: Doanh số bán hàng của một nhóm các công ty máy nông nghiệp
được chọn một cách ngẫu nhiên là 24-32-28-22-20-26-28 và 20 triệu đồng/tháng.
Tính độ lệch chuẩn của mẫu.
Giải: 25
8
200
===
∑
n
X
X
( ) 28,428,18
18
128
1
2
==
−
=
−
−
=
∑
n
XX
S
Theo cách rút gọn ta có:
X X2
24 576
22
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
32
28
22
20
26
28
20
200
1024
784
484
400
676
784
400
5128
( ) ( )
28,4
7
128
7
50005128
18
8
200
5128
1
22
2
==
−
=
−
−
=
−
−
=
∑
∑
n
n
X
X
S
Mối quan hệ giữa giá trị trung bình (Mean) và độ lệch chuẩn được xác định
theo định lý Chebyshev: "Với bất kỳ một dãy số liệu quan trắc nào đó, ít nhất sẽ có
[1-(1/k2
)] các giá trị quan trắc nằm trong phạm vi k lần độ lệch chuẩn của dãy số liệu
đó xung quanh giá trị trung bình".
Trên cơ sở định lý này, sẽ có ít nhất 75% các giá trị trong dãy số liệu quan
trắc nằm trong phạm vi 2 lần độ lệch chuẩn ở phía trên và dưới giá trị trung bình. Ít
nhất 88,9% nằm trong phạm vi 3 lần độ lệch chuẩn xung quanh giá trị trung bình, và
ít nhất 96% nằm trong phạm vi 5 lần độ lệch chuẩn xung quanh giá trị trung bình.
Theo công thức của Chebyshev ta có các giá trị phần trăm tương ứng với hai
ba và năm lần độ lệch chuẩn như sau:
Với khoảng 75% ta có: 75,0
4
1
1
2
1
1
1
1 22
=−=−=−
k
Với khoảng 88,9% ta có: 88,0
9
1
1
3
1
1
1
1 22
=−=−=−
k
23
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Với khoảng 96% ta có: 96,0
25
1
1
5
1
1
1
1 22
=−=−=−
k
Áp dụng định lý Chebyshev cho ví dụ 2.11, với giá trị trung bình là 25, độ
lệch chuẩn là 4,28 ta có ít nhất 75% số các giá trị quan trắc nằm trong khoảng (25 -
4,28 x 2) = 16,44; và (25 + 4,28 x 2) =33,56. It nhất 88,9% các giá trị nằm trong
phạm vi (25-4,28x3)=12,16 và (25+4,28x3)=37,84; và 96% giá trị thì nằm trong
phạm vi (25 - 4,28 x 5) = 3,60 và (25 + 4,28 x 5) = 46,40.
- Độ lệch chuẩn của các nhóm số liệu: Tính toán độ lệch chuẩn trong trường hợp
của các nhóm số liệu hoặc phân bố tần suất, chúng ta áp dụng công thức sau:
( )
1
2
2
−
−
=
∑
∑
n
n
fx
fx
S
[2-18]
Trong đó: x = Điểm giữa của lớp
f = Tần xuất của lớp
n = Số lượng quan trắc
Ví dụ 2.12: Để xây dựng kênh dẫn nước tưới cho đồng ruộng, một cơ sở xây
dựng đã nhận sự tài trợ của nhiều tổ chức và cá nhân khác nhau. Người ta đã thống
kê được mức đóng góp như sau, tính độ chênh lệch chuẩn cho các nhóm số liệu đó.
Giải:
Xây dựng bảng số liệu (Bảng 2.8) sau đó áp dụng công thức [2-18] để tính
độ lệch chuẩn.
Mức đóng góp (triệu
đồng)
Số đơn vị tài trợ
0,00 - < 5,00 30
5,00 - < 10,00 35
10,00- < 15,00 42
24
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
15,00- < 20,00 10
20,00- < 25,00 3
25,00- < 30,00 5
30,00- < 35,00 7
Bảng 2.8. Tính các gía trị cho các nhóm số liệu
(1)
Mức đóng góp
(triệu đồng)
(2)
Tần
suất
(f)
(3)
Điểm
giữa
(x)
(4)
(fx)
(5)
fx.x
(fx2
)
0,00 - < 5,00 30 2,5 75,00 187,50
5,00 - < 10,00 35 7,5 262,50 1968,75
10,00- < 15,00 42 12,5 525,00 6526,50
15,00- < 20,00 10 17,5 175,00 3062,50
20,00- < 25,00 3 22,5 57,50 1518,75
25,00- < 30,00 5 27,5 137,50 3781,25
30,00- < 35,00 7 32,5 227,50 7393,75
Cộng 132 1.470,00 24.475,0
0
( ) ( )
87,787,61
1132
132
1470
24475
1
22
2
==
−
−
=
−
−
=
∑
∑
n
n
fx
fx
S
Phần 2. THỐNG KÊ SUY LUẬN TRONG
KHOA HỌC NÔNG NGHIỆP VÀ MÔI TRƯỜNG
25
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
CHƯƠNG 3. LÝ THUYẾT XÁC SUẤT
3.1. Giới thiệu
Ở chương trước đã đề cập đến phương pháp thống kê mô tả. Tuy nhiên
phương pháp này không cho phép suy luận các giá trị của tổng thể từ các đặc trưng
mẫu. Do vậy ta phải sử dụng phương pháp thống kê suy luận. Quan điểm lí thuyết
xác suât có ý nghĩa quan trọng để giải thích cho phương pháp thống kê suy luận.
Trong thực tế, các nhà nghiên cứu hoặc quản lí thường phải đối mặt với việc
phải quyết định các vấn đề mà được dựa trên những thông tin và các số liệu hạn chế.
Vì để có được số lượng đủ lớn, các thông tin hay số liệu thường đòi hỏi chi phí lớn
về kinh phí cũng như thời gian. Lí thuyết sác xuất có liên quan đến quan niệm và sự
xác định các sự kiện không chắc chắn.
Các quyết định được đưa ra bởi các nhà nghiên cứu hoặc quản lí với sự hạn
chế thông tin thường có chứa đựng các nguy cơ có liên quan đến các sự kiện không
chắc chắn. Để phân tích các nguy cơ này, các nhà quản lí và nghiên cứu phải dựa
vào lí thuyết xác suất. Trong phần này, chúng ta chỉ đề cập đến khái niệm xác suất
như một phương pháp làm tăng mức độ tin tưởng của một quyết định nào đó trong
kết quả của xuất hiện của một sự kiện hoặc thí nghiệm.
3.2 Các khái niệm và phương pháp xác định xác suất
- Sự kiện (hay còn gọi là biến cố- event): Một sự kiện được xác định là kết quả
không chắc chắn của một thí nghiệm, hoặc một hoặc nhiều kết quả có thể của một
quan trắc hay một thí nghiệm nào đó. Hay nói cách khác, sự kiện là kết quả của 1
phép thử. Mỗi sự kiện tương ứng với một tập hợp kí hiệu là A, B, ...
Ví dụ có 5 hạt thóc giống đem thí nghiệm về sự nảy mầm của chúng. Kết qủa
cả 5 hạt giống đều nảy mầm là một khả năng có thể xuất hiện, đó là một sự kiện. Khi
nói đến sự kiện ta cần chú ý có sự kiện là tất yếu (Ω), nó nhất định sẽ xảy ra khi tiến
hành phép thử. Có sự kiện là không thể (ø), nghĩa là nó không thể xảy ra khi tiến
26
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
hành phép thử. Có sự kiện là ngẫu nhiên (A, B...), nghĩa là nó có thể xảy ra hoặc
không xảy ra khi tiến hành phép thử. Có sự kiện là tất nhiên (A, B, ...), nghĩa là nó
tất yếu sẽ xảy ra khi tiến hành phép thử.
- Không gian mẫu (sample space): Bao gồm tất cả các sự kiện có thể xuất hiện
trong thí nghiệm hoặc quan trắc. Ví dụ, khi gieo 5 hạt giống thì có 6 khả năng xảy ra
là 0, 1, 2, 3, 4, 5 hạt sẽ nảy mầm. Ta gọi đó là không gian mẫu.
- Tổng của 2 sự kiện: Tổng của các sự kiện (∪) được xác định là toàn bộ các sự
kiện xảy ra của 1 sự kiện có chứa tất cả các điểm mẫu thuộc A hoặc B hoặc cả hai,
và được kí hiệu là A ∪ B
Hình 3.1 cho thấy tổng các sự kiện A và B và được gọi là sơ đồ Venn (J.
Venn, 1834 - 1888). Hình chữ nhật biểu diễn không gian mẫu (sample space) nó
chứa các điểm mẫu. Tổng của tất cả các điểm mẫu là không gian mẫu. Hai vòng tròn
là đại diện cho các sự kiện A và B. Trên thực tế vùng chồng lấn là diện tích chung
của cả A và B. Để có xác suất của sự kiện A và B chúng ta phải trừ đi 1 vùng chồng
lấn từ tổng xác suất của sự kiện A và B.
Hình 3.1. Tổng các sự kiện A và B khi các sự kiện là loại trừ nhau
và khi chúng không loại trừ nhau
- Sự giao nhau của các sự kiện: Sự giao nhau của 2 sự kiện được khái niệm là
một sự kiện mà có chứa các điểm mẫu thuộc cả A và B. Sự giao nhau của hai sự
27
A B
Không gian mẫu (a) Không gian mẫu (b)
Tổng A và B hoặc AB
A B
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
kiện A và B được ký hiệu là A∩B. Hình 3.1, phần giao nhau giữa 2 sự kiện A và B
chính là diện tích chồng lấn của 2 hình tròn A Và B.
- Các qui tắc cơ bản của xác suất: Tính toán xác suất được dựa trên các qui tắc
của phép cộng hoặc nhân. Khi ta có 2 sự kiện, nếu muốn biết xác suất mà ít nhất sẽ
có một sự kiện xảy ra, ta áp dụng qui tắc cộng. Một cách khác nếu muốn biết xác
suất mà sự kiện A hoặc B, hoặc cả 2 xuất hiện, ta chỉ đơn thuần là cộng cả 2 xác suất
sơ cấp của chúng.
Ngược lại, khi muốn tìm xác suất của 2 (hoặc nhiều hơn các sự kiện) xuất hiện
đồng thời ta phải áp dụng qui tắc nhân xác suất.
Khi cộng các xác suất, trước hết cần phải biết các sự kiện là độc lập hoặc giao
nhau. Nếu sự xuất hiện của một sự kiện mà nó loại trừ sự xuất hiện của sự kiện
khác, ta có 2 sự kiện là loại trừ nhau. Ví dụ, nếu một nhà chọn giống cây trồng tiến
hành một thí nghiệm riêng rẽ về sự chuyển hoá chất diệp lục (chlorophyl) để có
giống cây màu vàng thay vì màu xanh vốn có, thường gặp phải sự kiện loại trừ nhau
như Hình 3.1. Phương trình theo qui tắc cộng xác suất như sau:
P(A hoặc B)=P(A)+P(B) [3-1]
hoặc P(A ∪ B) = P(A)+P(B) [3-2]
Trong trường hợp này cả A và B sẽ xuất hiện ngang nhau trong tổng xác suất
của A Và B.
Ví dụ, nếu ta tung con súc sắc thì xác suất xuất hiện mặt 2 hoặc 3 chấm sẽ là:
P(2 hoặc 3) = P(2) + P(3)
=1/6+1/6 = 2/6 = 0,33
Tình huống mà 2 sự kiện là không loại trừ nhau chính là hiệu của diện tích
(phần gạch chéo giao nhau) ở hình 3.1. Đây là vùng mà cả 2 sự kiện đều có khả
năng xuất hiện. Vì vậy qui tắc cộng xác suất sẽ là:
P(A hoặc B) = P(A) + P(B) - P(A và B) [3-3]
28
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Ví dụ: Nếu ta rút một quân bài từ tập tú lơ khơ, xác suất để rút được quân K
hoặc quân cơ sẽ là:
P(K hoặc cơ) =P(K) + P(cơ) - P(K và cơ)
= 4/52+13/52-1/52
= 16/52
= 0,31
Nếu ra muốn xác định xác suất của 2 (hoặc vài) sự kiện cùng xuất hiện đồng
thời ta áp dụng qui tắc nhân. Qui tắc nhân được áp dụng khác nhau phụ thuộc vào
các sự kiện chúng là độc lập hay phụ thuộc nhau. Hai sự kiện là độc lập nhau nếu sự
xuất hiện của sự kiện này không ảnh hưởng đến sự xuất hiện của các sự kiện kia.
Để mô tả khái niệm này, giả sử ta có một cặp xúc sắc, trong đó 1 con xúc sắc
màu trắng và một con xúc sắc màu đen. Sự xuất hiện mặt 3 chấm của con xúc sắc
màu trắng là hoàn toàn độc lập với sự xuất hiện mặt 3 chấm của con xúc sắc mầu
đen. Ta ký hiệu xác suất của các sự kiện độc lập như sau:
P(A và B) = P(A) x P(B) [3-4]
hoặc P(A∩ B) = P(A) x P(B) [3-5]
Sử dụng phương trình [3-4] để xác định xác suất của mặt 3 chấm của cặp
xúc sắc này là:
P(3 trên trắng và 3 trên đen) = P(3 trên trắng) x P(3 trên đen)
= 1/6 x 1/6 = 1/36 = 0,028
Khi 2 sự kiện (A và B) phụ thuộc nhau thì xác suất xuất hiện của sự kiện này
sẽ phụ thuộc hoặc là điều kiện cho sự xuất hiện hay không xuất hiện của sự kiện
khác. Ký hiệu | được sử dụng để chỉ xác suất điều kiện như trình bày trên. Ví dụ,
P(A|B) nghĩa là xác xuất của sự kiện A là điều kiện cho sự xuất hiện của sự kiện B.
Qui tắc xác suất trong xác suất có điều kiện được biểu diễn như sau:
P(A∩ B) = P(A) x P(A|B) [3-6]
29
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
hoặc P(A∩ B) = P(B) x P(B|A) [3-7]
Ở phương trình [3-6]. sự xuất hiện đồng thời của A và B là ngang nhau
trong tích số xác suất của sự kiện A, và xác suất của A là điều kiện cho sự xuất hiện
của B. Ta có thể sử dụng phương trình [3-6] hoặc [3-7] để tính P(A|B).
Ví dụ 3.1:
Trong buổi thuyết trình trước một nhóm các đại lý, phó chủ tịch công ty hoá
chất nông nghiệp chỉ ra rằng, với kinh nghiệm trước đây cho thấy xác suất bán hàng
cho một nông trại ở lần chào hàng thứ 2 là 0,30. Các ghi nhận được cho thấy có 52%
các lần bán hàng như vậy đạt trên 200 nghìn đồng. Hãy xác định xác suất mà các đại
lý bán hàng sẽ bán được trên 200 nghìn đồng?
Giải:
Trước khi áp dụng phương trình [3-6] hoặc [3-7] để tìm xác suất, ta đặt vấn đề
như sau:
P(A)= xác suất mà một lần bán hàng tiến hành
P(A| B)= xác suất mà một lần bán hàng được trên 200 nghìn đồng
Xác suất các đại lý bán hàng tiến hành với 1 lần bán được trên 200 nghìn đồng
là:
P(A và B)=P(A)xP(A|B)
= (0,30)(0,52) = 0,16
Qui tắc nhân xác suất có thể được áp dụng với bất kỳ số lượng các sự kiện. Với
trường hợp nhiều hơn 2 sự kiện ta có công thức sau:
P(A, và B, ..., và N)=P(A)P(B|A)P(C|B và A), ..., P(N|N-1) và, ..., A) [3-8]
Ví dụ 3.2:
Một nhà khoa học chăn nuôi thử nghiệm 3 loại thức ăn khác nhau nhằm tăng
cao khả năng tăng trọng của bò. Nghiên cứu được tiến hành ở 10 con bò, trong đó 5
30
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
con là giống Angus, 3 con giống Brahman và 2 con giống Hereford. Giả sử rằng có
3 con được chọn ngẫu nhiên từ danh sách đánh số từ 1 đến 10. Mỗi lần chọn 1 con,
nên sau mỗi lần chọn mẫu, số con bò còn lại sẽ có các cơ hội ngang nhau để dược
lựa chọn tiếp. Tìm xác xuất mà cả 3 con bò được lựa chọn đề là giống Angus.
Giải:
Giả sử rằng các sự kiện của lần chọn thứ nhất, thứ hai và thứ ba cho giống
Angus là A, B, C ta có:
P(A, B và C) = P(A)P(B|A)P(C|B và A)
= (5/10)(4/9)(3/8) = 0,08
Vì trong 10 con bò thì có 5 con Angus, nên xác suất của lần chọn thứ nhất
P(A)=5/10. Lúc này ta còn lại 9 con, vì vậy xác suất điều kiện P(B|A) =4/9. Tương
tự như vậy, sau lần chọn mẫu thứ hai ta chỉ còn 8 con bò để lựa chọn và trong đó có
thể sẽ có 3 con là Angus. Do vậy câu trả lời là xác suất cho lựa chọn được cả 3 con
Angus chỉ là 0,08.
Từ ví dụ này có 2 điều quan trọng cần lưu ý là: (1) sự xuất hiện đồng thời cả 3
giống A, B và C là như nhau. Nghiã là qui tắc nhân sẽ được áp dụng để tính toán. (2)
nếu ta lấy ngẫu nhiên theo cách thay thế, xác suất cho mỗi sự kiện sẽ được duy trì
như nhau. Với ví dụ trên nếu ta lấy mẫu thay thế (lấy mẫu lặp) ta có khả năng xuất
hiện đồng thời cho các sự kiện A, B và C là:
P(A, B và C)=(5/10)(5/10)(5/10) =0,13
Tỷ số được giữ nguyên vì sau mỗi lần lấy mẫu chúng ta lại đưa trả lại để cho
số bò của mỗi lần lấy mẫu đều là 10.
Một cách nhìn khác trong mối quan hệ giữa việc lấy mẫu và bản chất của các
sự kiện là lấy mẫu không lặp lại, cũng tương tự như các sự kiện phụ thuộc trong xác
suất. Lấy mẫu trong trường hợp này cũng tương tự như các sự kiện độc lập.
- Xác suất điều kiện:
31
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Xác suất điều kiện là xác suất xuất hiện của một sự kiện này sẽ là điều kiện cho
sự xuất hiện của một sự kiện khác. Phương trình [3-9] là cách xác định xác suất điều
kiện của 2 sự kiện A và B:
P(A|B = P(A∩ B)/P(B) [3-9]
hoặc P(B|A)=P(A∩ B)/P(A) [3-10]
Trong đó P(A) và P(B) là khác không
Ví dụ 3.3:
Một nhà khoa học làm thí nghiệm kiểm tra hiệu quả của một loại vắc xin
phòng bệnh cho gà. Hãy cho biết xác suất bắt gặp con gà đã được tiêm chủng mà
vẫn bị mắc bệnh khi lựa chọn một cách ngẫu nhiên. Dựa vào số liệu quan trắc sau
đây:
Kết quả Thí nghiệm
Tiêm vắc
xin
Đối
chứng
Tống số
Bị nhiễm bệnh
Không bị nhiễm
bệnh
Tổng
22
78
100
44
56
100
66
134
200
Giải
Giả sử rằng : I = Sự kiện gà bị nhiễm bệnh
H= Sự kiện gà không bị nhiễm bệnh
V= Sự kiện gà được tiêm vắc xin
C = Sự kiện gà không được tiêm vắc xin
32
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Vì mỗi ô trong bảng số liệu là kết quả của 2 sự kiện, ta có thể tính xác suất
đồng thời của chúng như sau:
P(I∩V) = 22/200 =0,11
P(I∩C) = 44/200 = 0,22
P(H∩V) = 78/200 = 0,39
P(H∩C) = 56/200 = 0,28
Bảng 3.1 Biểu diễn xác suất đồng thời và xác suất biên (marginal probability)
cho ví dụ này.
Bảng 3.1. Xác suất đồng thời và xác suất biên cho
gà được tiêm vắc xin và đối chứng
Tiêm vắc
xin
Đối
chứng
Xác suất
biên
Bị nhiễm bệnh
Không bị nhiễm
bệnh
Xác xuất biên
0,11
0,39
0,05
0,22
0,28
0,30
0,33
0,67
1,00
Xác suất biên là tổng của các xác suất đồng thời của mỗi sự kiện riêng rẽ. Xác
suất biên 0,33 và 0,67 cho biết 33% số gà bị nhiễm bệnh và 67% là không bị nhiễm
bệnh. Xác suất biên 0,50 và 0,50 cho biết 50% được tiêm vắc xin và 50% là không
được tiêm vắc xin. Để tính xác suất biên mà gà bị nhiễm bệnh trong số đã được tiêm
vắc xin, ta có:
P(I|V) = P(I∩V)/P(V) [3-11]
33
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Xác suất đồng thời, P(I∩V) từ Bảng 3.1 là 0,11. Cần chú ý rằng 0,50 là xác
suất biên mà gà bị nhiễm bệnh trong số đã được tiêm vắc xin P(I) = 0,50. Với những
thông tin này, xác suất điều kiện sẽ là:
P(I |V) = 0,11/0,50 = 0,22
Xác suất điều kiện cho biết số gà dược tiêm vắc xin sẽ có 22% khả năng bị
nhiễm bệnh.
- Sơ đồ cây (Tree diagram):
Chúng ta có thể biểu diễn không gian mẫu như đồ thị hình chữ nhật được trình
bày ở trên, hoặc dưới dạng hình cây. Đồ thị hình cây cũng được sử dụng tương tự
như đồ thị hình chữ nhật.
Để xây dựng đồ thị hình cây, trước hết ta vẽ các điểm hoặc hình vuông nhỏ đại
diện cho thân cây như Hình 3.3. Sự xảy ra của mỗi mẫu quan trắc được đại diện cho
các nhánh.
Hình 3.3. Sơ đồ hình cây cho 300 người dân
với các nghề khác nhau muốn nghỉ hưu ở tuổỉ 60
Ví dụ 3.4:
34
Quản lý (M) 0,33
Sản xuất (P) 0,67
Nghỉ hưu (R) 0,23
Không nghỉ hưu (NR) 0,10
Nghỉ hưu (R) 0,07
Không nghỉ hưu (NR) 0,50
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Một nghiên cứu mới đây cho thấy người nông dân với các nghề khác nhau
không muốn nghỉ hưu trước tuổi 60. Một nhà kinh tế nông nghiệp làm một cuộc
điều tra giữa những người làm công tác quản lý và các nhà sản xuất để xác định kế
hoạch cho họ sau tuổi 60. Kết qủa thu được như sau, hãy vẽ sơ đồ cây và xác định
xác suất xuất hiện đồng thời.
Nghề nghiệp Kế hoạch sau tuổi 60
Nghỉ hưu (R) Không nghỉ hưu
(NR)
Tổng
M : Quản lý
P : Sản xuất
70
20
30
180
100
200
300
Giải:
Đối với vấn đề này, có 2 nhánh chính được xây dựng từ thân cây (tree trunk).
Một nhánh đại diện cho những người quản lý và nhánh kia cho những người sản
xuất. Xác suất của mỗi nhánh cây là 0,33 và 0,67 như được mô tả ở Hình 3.3.
Nếu dấu hiệu M, P, R và NR tương ứng cho các nhà quản lý, sản xuất, nghỉ
hưu và không nghỉ hưu. Như vậy Xác suất đồng thời của nhà quản lý muốn nghỉ hưu
ở tuổi 60 sẽ là P(M và R). Tương tự như vậy xác suất đồng thời của người sản xuất
và tuổi nghỉ hưu 60 sẽ là P(P và R).
Bảng 3.2. Xác suất đồng thời của 300 cá nhân thích nghỉ hưu
liên quan đến nghề nghiệp khác nhau
Nghề nghiệp Nghỉ hưu
(R)
Không nghỉ hưu
(NR)
Xác suất giới
hạn
M : Quản lý
P : Sản xuất
Xác suất giới hạn
0,23
0,07
0,30
0,10
0,60
0,70
0,33
0,67
1,00
35
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Xác suất đồng thời này khi lựa chọn ngẫu nhiên các cá nhân làm nghề quản lý
muốn nghỉ hưu ở tuổi 60 sẽ là:
P(M và R) = 70/300 = 0,23
Tương tự xác suất đồng thời giữa người sản xuất và tuổi nghỉ hưu (60 tuổi) là:
P(P và R) =20/300 = 0,07
Các xác suất đồng thời cho các yếu tố khác được tính toán theo tần suất tương
đối và giới thiệu ở Bảng 3.2.
3.3. Nguyên lý tính toán
Trong một số thí nghiệm, không gian mẫu có thể là rất lớn, các kết quả thu
được là rất phức tạp và khó xác định. Trong trường hợp như vậy chúng ta phải sử
dụng một số kỹ thuật tính toán nhất định. Nguyên tắc tính toán này chỉ được sử dụng
trong trường hợp số các sự kiện nhiều hơn 2.
Dạng đơn giản nhất, nguyên lý tính toán được phát biểu như sau:
Nếu sự kiện thứ nhất có thể xảy ra với i các cách khác nhau, và sự kiện thứ 2
có thể xảy ra với j cách khác nhau thì tổng các khả năng xuất hiện sẽ là tích số của i
và j. Nghĩa là:
Tổng số khả năng xuất hiện là i . j
Ví dụ, nếu có 2 cách vận chuyển lúa từ trang trại đến nhà kho và 3 cách vận
chuyến chúng từ kho đến người bán buôn, và 4 cách vận chuyển từ người bán buôn
đến người bán lẻ. Như vậy ta có tổng số 2x3x4=24 cách vận chuyển lúa từ trang trại
đến người bán lẻ.
Nguyên lý phép nhân (multiplication), hoán vị (permutation) và sự tổ hợp
(combination) là các kỹ thuật tính được dùng để xác định các khả năng của các con
đường khác nhau cho vận chuyển lúa.
- Nguyên lý phép nhân (multiplication principle):
36
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Khi trật tự là quan trọng cho sự xảy ra của một thí nghiệm (chẳng hạn như
tung đồng xu, HT=TH, trong đó H=mặt ngửa-heads và T=mặt sấp), nguyên lý phép
nhân sẽ được sử dụng để tính tổng các khả năng xảy ra. Công thức lựa chọn bội số
từ một thí nghiệm là:
nMr = nr
[3-12]
Trong đó nMr là số các lựa chọn bối số của m sự kiện trong r lần. Sự lựa chọn
bội số có thể là tổ hợp của các tính chất khác nhau trong một ví dụ.
Ví dụ 3.5:
Một nhà làm vườn tạo giống mới bằng nhân giống cây trồng mong muốn phát
triển giống cây có hoa vàng, hoa to và cuống dài. Giả sử kí hiệu hoa vàng là (Y), hoa
to là L và cuống dài là S. Xác định xem có bao nhiêu cách lựa chọn bội số từ ví dụ
này trong tổ hợp chập hai:
Giải:
3M2 = 32
= 9
YY LY SY
YL LL SL
YS LS SS
-Phép hoán vị (permutation):
Nếu các sự kiện xáy ra không lặp lại nhưng theo trật tự ta có thể áp dụng phép
hoán vị. Phép hoán vị được định nghĩa là một sự sắp xếp một tập hợp các tổ hợp
trong đó ta có lần lượt cái thứ nhất, thứ hai và thứ n.
Ta có thể áp dụng nguyên tắc này để tính toán các cách sắp xếp. Tuy nhiên để
dễ dàng hơn ta áp dụng công thức :
37
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Trong đó nPr là số lần hoán vị của n phần tử (Objects) dược lấy mỗi lần là r
phần tử. Ký hiệu ! là giai thừa (factorial) được dùng cả trong phép hoán vị và tổ hợp.
Giai thừa của n (n !) nghĩa là tích của n(n-1)(n-2)(n-3), ..., [n-(n-1)].
Ví dụ 4 ! ta có:
4 ! = 4(4-1)(4-2)[4-(4-1)] = 4x3x2x1 = 24
Với ví dụ 3.5 trong trường hợp hoán vị ta đặt vấn đề là sẽ có bao nhiêu cách
hoán vị các chữ cái Y, L và S, nếu mỗi lần lấy 2 chữ.
Sử dụng phương trình [3-13] ta có:
- Tổ hợp :
Khi một trật tự là không quan trọng, ta sử dụng nguyên tắc tổ hợp
(Combination principle) trong nhóm các phần tử (grouping objects). Công thức tính
tổ hợp là (ta gọi tổ hợp chập r của n).
Cũng xét với ví dụ 3.5, ta xác định có bao nhiêu cách tổ hợp của các chữ cái
Y, S và L, nếu mỗi lần ta lấy ra 2 chữ cái.
38
]133[
)!(
!
−
−
=
rn
n
prn
6
1
)1.2.3(
!1
!3
)!23(
!3
)!23(
!3
23 ===
−
=
−
=P
]143[
)!(!
!
−
−
=
rnr
n
Crn
)!(!
!
rnr
n
Crn
−
=
3
!2
!2.3
)!23(!2
!3
23 ==
−
=C
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
3.4. Định lý Bayes
Trong nhiều nghiên cứu, ta ước lượng các xác suất cho việc phân tích các sự
kiện sẽ xảy ra sau. Tuy nhiên trong quá trình nghiên cứu, có nhiều thông tin mới
xuất hiện có liên quan đến sự xuất hiện hay không của một sự kiện đó. Với các
thông tin bổ sung này, định lý Bayes đưa ra một giá trị trung bình cho việc tính toán
các xác suất sẽ xảy ra sau đó của một sự kiện. Hình 3.4 chỉ ra các bước trong việc
xem xét đánh giá lại các xác suất.
Xác suất trước
Các thông tin mới hoặc bổ sung
Áp dụng định lý Bayes
Xác suất hồi cố
Hình 3.4. Sự đánh hồi cố xác suất dựa theo định lý Bayes
Định lý được phát biểu cho xác suất điều kiện được biểu diễn bằng công thức:
Trong đó : i =1,2,3,...,n
Nhìn chung trong hầu hết các quyết định, Ai là sự kiện xuất hiện trước khi B
xuất hiện. Để đơn giản hơn, định lý Bayes được viết như sau:
39
]153[
)()(...()()(
)()(
}(
211
−
|++|+|
|
=|
in
ii
i
APABPABPAPABP
APABP
BAP
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Ví dụ 3.6:
Một chuyên gia dinh dưỡng khi nghiên cứu về tình hình suy dinh dưỡng trong
nhân dân đã cho biết có 3% dân số của một nước đang phát triển ở tình trạng suy
dinh dưỡng. Khi kiểm tra lại báo cáo của Chính phủ thông qua số liệu ghi chép thì
qua kiểm tra (sự kiện B) Chính phủ đã xác định xác suất điều kiện (suy dinh dưỡng
tồn tại) là:
P(B|A1)=0,95
Và xác suất tương ứng (người không bị suy dinh dưỡng) là:
P(B|A2) = 0,04
Suy dinh dưỡng giản đơn thường khó phân biệt vì nó thường xuất hiện cùng
với nhiều loại bệnh khác. Do vậy xác suất bắt gặp ngẫu nhiên người suy dinh dưỡng
thực sẽ là bao nhiêu?
Giải:
Gỉa sử A1 là những người bị suy dinh dưỡng và A2 là những người không bị
suy dinh dưỡng. Như vậy xác suất cho mỗi số liệu là:
P(A1) = 0,03 P(A2) = 0,97
Theo định lý Bayes, đây được xem là những xác suất trước (prior probability)
bởi vì nó được ghi nhận lần quan sát sơ bộ về dinh dưỡng. Nó không đề cập đến các
kinh nghiệm đã được áp dụng trong nhân dân. Để xác định xác suất hồi cố khi được
đánh giá lại ta phải tính xác suất kết hợp trong tử số và mẫu số của phương trình [3-
16]. Điều này sẽ được hoàn thiện bằng sử dụng qui tắc nhân:
P(A1 ∩B) = P(A1)P(B|A1) [3-17]
và P(A2 ∩B) = P(A2)P(B|A2) [3-18]
40
]163[
)(
)()(
)( 1
−
|
=|
BP
ABPAP
BAP i
i
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
ta có P(B) = P(A1)P(B|)A1)+P(A2)P(B|A2) [3-19]
Thay các phương trình [3-17[ và [3-19] vào tử số và mẫu số của phương trình
[3-16] ta có:
Với ví dụ đang xét ta có xác suất tính toán lại như sau:
Như vậy xác suất hồi cố cho thấy người bị suy dinh dưỡng sẽ là 0,42. Cách
tính theo định lý Bayes được trình bày ở bảng 3.3.
Các bước tính toán được thực hiện như sau:
+ Bước 1: Lập bảng có 5 cột như Bảng 3.3
Bảng 3.3. Tính theo định lý Bayes cho ví dụ 3.6
Sự kiện
A1
Xác suất
đầu P(A)
Xác suất
điều kiện
P(B|A1)
Xác suất kết
hợp
P(A1)P(B|A1)
Xác suất hồi cố
P(A1|B)
A1: Suy dinh
dưỡng
0,03 0,95 0,0265 0,0285/0,0673=0,42
A2 : Đủ
dinh dưỡng
0,97 0,04 0,0388 0,0388/0,0673=0,58
P(B)=0,0673 1,00
+ Bước 2: Cung cấp các thông tin mới cho nhà nghiên cứu, xác suất kết hợp cho
mỗi sự kiện dược tính và thay thế vào cột thứ 4. Đơn thuần đây chỉ là tính xác suất
đầu và xác suất điểu kiện hay tích của cột thứ 2 và thứ 3.
+ Bước 3: Lấy tổng của cột xác suất kết hợp để xác định xác suất liên quan với
các thông tin mới P(B). Xác suất liên kết cho ví dụ trên với các thông tin mới bổ
sung, chẳng hạn như khí hậu (được gọi là sự kiện B) là 0,0673.
41
]203[
)()()()(
)()(
)(
2211
11
1 −
|+|
|
=|
ABPAPABPAP
ABPAP
BAP
42,0
0673,0
0285,0
)04,0)(97,0()95,0)(03,0(
)95,0)(03,0(
)( 1 ==
+
=| BAP
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
+ Bước 4: Tính xác suất hồi cố bằng sử dụng quan hệ cơ bản của xác suất điều
kiện theo phương trình [3-15]. Nghiã là, xác suất liên kết cho mỗi sự kiện được chia
cho P(B), chúng là tổng của xác suất điều kiện.
3.5. Phân bố xác suất
Trong các phần trên ta đã đề cập đến các khái niệm xác suất và cách tính
xác suất cho mỗi sự kiện. Khi chúng ta muốn biết xác suất của mỗi lần xuất hiện
trong tập hợp của các sự kiện, ta đề cập đến phân bố xác suất. Phân bố xác suất là
dạng đặc biệt của phân bố tần suất khi tần suất được xem như là xác suất. Ta có thể
hiểu khái niệm phân bố xác suất như là danh sách hoàn chỉnh của tất cả khả năng
xuất hiện của một thí nghiệm cùng với xác suất của chúng.
Có một vài sự phân bố xác suất có ý nghĩa quan trọng trong khoa học nông
nghiệp và môi trường. Ví dụ như phân bố nhị thức và phân bố thường cho các biến
liên tục.
- Phân bố nhị thức (Binomial distribution): Đây là phân bố xác suất được sử
dụng rộng rãi nhất cho một biến rời rạc. Nó mô tả phân bố xác suất khi chỉ có 2 khả
năng xuất hiện của một sự kiện hoặc thí nghiệm.
Ví dụ, sự phân bố số lượng lợn đực trong n con lợn mới sinh ra là phân bố
nhị thức vì mỗi con lợn con có thể là đực hoặc cái. Trong một thí nghiệm đồng
ruộng, một nhà nông học có thể nhận thấy việc sử dụng thuốc diệt cỏ có tác dụng
hoặc không. Hoặc một nhà khoa học vật nuôi muốn kiểm tra thí nghiệm tiêm vắc xin
có hiệu quả hay không. Tất cả những vấn đề này đều có 2 khả năng xảy ra. Hai khả
năng xuất hiện trong một thí nghiệm, thường được gọi là thành công hoặc thất bại.
Nếu một sự kiện ngẫu nhiên có 2 dạng trên và xác suất của một sự kiện xuất
hiện (thành công) được xác định là p và q, trong đó q=1-p hoặc xác xuất của sự kiện
không xuất hiện (thất bại) thì xác suất của r thành công trong n phép thử được tính
như sau:
P(r) = ( nCr )( P)r
(q)n-r
[3-21]
Cho r= 0,1,2,...,n
42
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Ký hiệu (( nCr ) nghĩa là ta lấy ngẫu nhiên ra r phần tử (r ≤ n) sao cho 2 cách lấy
được gọi là khác nhau nếu giữa chúng có ít nhất một phần tử khác nhau. Số cách lấy
ra r phần tử như vậy được gọi là tổ hợp chập r của n.
Ví dụ 3.7:
Một chuyên gia môi trường dựa trên kinh nghiệm cho rằng 80% cây giống
có khả năng sống sau khi trồng. Nếu lấy ngẫu nhiên 6 cây giống từ khu vực trồng
cây, cho biết xác suất có thể lấy để có 2 cây sống.
Giải:
Với p=0,80 và q=1-p=0,20, vì vậy xác suất lấy mẫu có 2 cây sống sau khi
trồng sẽ được xác định như sau:
Vì xác suất sống của 2 cây giống sau khi trồng với cách lấy ngẫu nhiên 6
cây sẽ là 0,01536. Xác xuất cho các khả năng khác xảy ra đựợc trình bày ở Bảng
3.4. Giá trị xác suất cũng có thể có được từ bảng nhị thức chung ở Bảng phụ lục A.
Phân bố nhị thức được sử dụng trong trường hợp khi muốn xác định xác
suất xảy ra một cách độc lập, nghĩa là sự xảy ra của bất kỳ một phép thử hoặc nhiều
phép thử này không ảnh hưởng đến việc xảy ra của các phép thử tiếp theo; và với
mỗi phép thử sẽ có 2 khả năng xảy ra.
Bảng 3.4 Phân bố xác suất cho số lượng các cây giống sống sót sau khi trồng
Số lượng các cây giống sống Xác suất
0
1
2
3
4
5
6
Tổng
0,00006
0,00156
0,01536
0,08192
0,24576
0,39322
0,26214
1,00000
43
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
- Phân bố thường (Normal distribution): Phân bố thường cũng là một trong
những phân bố xác suất liên tục rất phổ biến. Được gọi là phân bố thường vì nó sấp
xỉ với các biến ngẫu nhiên có số lượng lớn. Phân bố này được áp dụng trong nhiều
tình huống khác nhau và là trung tâm của nhiều vấn đề thống kê.
Phương trình phân bố mật độ của nó được biểu diến dưới dạng hình chuông
đối xứng, tiếp cận (tiệm cận) nhưng không cắt trục hoành.
Đường cong thường được xác định bởi số trung bình µ (mean) và độ lệch
chuẩn σ (standard deviation) của nó. Chúng là những đặc tính quan trọng của đường
cong thường vì ta có thể tính được toàn bộ sự phân bố dựa trên giá trị trung bình và
độ lệch chuẩn.
Có 3 dạng đường phân bố thường với cùng một số trung bình nhưng khác
nhau về độ lệch chuẩn. Cần chú ý rằng trong những trường hợp riêng biệt, độ lệch
chuẩn có ảnh hưởng đến dạng chung của đường cong phân bố thường.
Ba đường cong có kích thước khác nhau nhưng chúng đều có mối liên hệ
chung tương đối nào đó. Trước hết, tổng diện tích dưới đường cong phân bố liên tục
là bằng 1. Thứ hai, mỗi đường cong có một nửa diện tích lớn hơn giá trị trung bình
và một nửa nhỏ hơn giá trị trung bình (được phân chia bằng đường thẳng đứng chính
diểm giữa trên cơ sở đường trục hoành). Thứ ba, giá trị của khoảng dao động X từ
-∞ đến +∞. Tuy nhiên với mục đích thực tế ta không cần quan tâm đến giá trị X
nằm ngoài 3 hoặc 4 lần độ lệch từ giá trị trung bình. Đây là kinh nghiệm và chỉ được
áp dụng cho mẫu có phân bố tần suất dạng hình chuông. Với qui tắc này, sấp xỉ 68;
95 và 99% các giá trị nằm trong vùng tương ứng với µ ± 1, µ ± 2,và µ ± 3.
- Đường cong tiêu chuẩn thông thường (Standard normal curve): Đường cong
tiêu chuẩn thông thường là chúng có số trung bình bằng 0 và độ lệch chuẩn bằng 1.
Vì các biến phân bố thông thường có thể các thứ nguyên (đơn vị đo lường) khác
nhau như cm, kg, giờ, ngày... nên để thuận tiện ta chuyển đổi các giá trị này thành
đơn vị chuẩn gọi là độ lệch tiêu chuẩn thường (Standard normal deviate).
44
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Độ lệch thường z là khoảng cách cho thấy khả năng một biến ngẫu nhiên
thường từ giá trị x từ số trung bình của nó. Độ lệch Z được tính theo công thức:
Z = (x- µ ) / σ [3-12]
Trong đó X = giá trị quan trắc
µ = số trung bình của phân bố
σ = Độ lệch chuẩn của phân bố
Để mô tả điều này, ta biểu diễn bằng diện tích. Giả sử rằng sản xuất sữa
trung bình hàng ngày từ một con bò có phân bố thường là 65 lít với độ lệch chuẩn là
15 lit. Giả sử có một giá trị quan trắc được là 87. Hãy tính độ lệch Z từ giá trị trung
bình.
Để tính Z ta có:
Z = (x- µ ) / σ = (87 – 65) / 15 = 1,47
Giá trị 87 nằm lệch 1,47 về phía phải số trung bình là 65. Để tìm diện tích
cho z=1,47 ta sử dụng Bảng phụ lục B; tra cột 1.4 ở phụ lục B và hàng 0,07. Diện
tích dưới đường cong được tìm thấy ở chỗ cắt nhau giữa cột và hàng trên là 0,4292.
Con số này cho biết có 42,92% diện tích dưới đường cong sẽ xác định sự phân bố
mức sản xuất sữa hàng ngày của bò.
Vì đường cong phân bố thường là đối xứng, do vậy giá trị bảng phụ lục chỉ
xác định một nửa của đường cong.
Ví dụ 3.8:
Một nhà nông học xác định mức tăng sinh khối khô của một loại cây trồng
là 10g với độ lệch chuẩn là 2 gam. Hãy xác định tỷ lệ sinh khối khô giữa 10 và 14
gam.
Giải
45
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Phần diện tích sinh khối giữa 10 và 14 g chính là diện tích nằm dưới đường
cong thường giữa giá trị trung bình và một điểm lớn hơn gía trị trung bình . Giá trị Z
được tính như sau:
Z = (14 – 10) / 2 = 2
Sử dụng phụ lục B để xác định diện tích dưới đường cong với z=+2, ta có
giá trị 0,4772. Ta có thể nói rằng 47,72% phần diện tích trong phân bố thường nằm
giữa giá trị trungbình và giá trị của 2 lần độ lệch chuẩn về phía bên phải (lớn hơn giá
trị trung bình).
Ta kết luận rằng 0,4772 là tỷ lệ của sinh khối khô giữa 10 và 14 gam.
Ví dụ 3.9:
Một nhà làm vườn muốn tăng cường thời gian giữ cho hoa tươi bằng cách
nhân giống. Từ một mẫu phân bố thường, đã xác định được thời gian giữ cho hoa
tươi là 168 gìơ (µ=168) với độ lệch chuẩn là 30 giờ. Hãy xác định tỷ lệ để có hoa
tươi trong khoảng 192-216 giờ.
Giải;
Tính Z cho 192 giờ: Z = (192 – 168) / 30 = 0,80
Tính Z cho 216 giờ: Z = (216 – 168) / 30 = 1,60
Diện tích cho mỗi giá trị Z trên sẽ là:
Z=1,60 diện tích là 0,4452
Z=0,80 diện tích là 0,2881
Xác suất được xác định là hiệu của hai diện tích xác định được ở trên và có
giá trị là 0,1571.
Ví dụ 3.10:
Trên cơ sở các số liệu ở ví dụ 3.9; hãy xác định xác suất của hoa có thời
gian tươi sau khi cắt khoảng 144-204 giờ.
46
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Giải
Với 144 giờ ta có:
Z= (144-168) / 30= -0,8
Với 204 giờ, ta có:
Z= (204-168) / 30= 1,20
Diện tích cho các giá trị Z sẽ là:
Z = -0,8 diện tích là 0,2881
Z = 1,20 diện tích là 0,3849
Xác suất hoa tươi sau khi cắt nằm trong khoảng 144-204 giờ sẽ là tổng của 2
diện tích trên hay bằng 0,6730.
Ví dụ 3.11:
Với các thông số ở ví dụ 3.9. Hãy xác định xác suất của hoa còn tươi sau khi
cắt 240 giờ.
Giải:
Tính Z cho 240 giờ
Z= (240-168) / 30=2,4
Với z=2,4 diện tích nhỏ hơn đường cong trung bình là 0,4918. Vì vậy, nếu
0,4918 là diện tích giữa 168 và 240 giờ, diện tích nằm ngoài 240 giờ là sự khác biệt
giữa 0,5000 (tổng diện tích nằm phía bên phải giá trị trung bình) và 0,4918. Xác suất
hoa còn tươi sau 240 giờ là 0,0082 (Hình 3.12).
Ví dụ 3.12:
Với các thông số ở ví dụ 3.9. Hãy xác định xác suất của hoa còn tươi sau khi
cắt 192 giờ (hình 3.13).
Giải:
Tính Z cho 192 giờ
47
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Z= (192-168) / 30=0,80
Diện tích nhỏ hơn giá trị trung bình 168 tương ứng với 0,5000 và diện tích
cho z =0,80 sẽ là 0,2881. Vì vậy, xác suất sẽ là tổng của 2 vùng tương ứng với
0,7881.
Ví dụ 3.13:
Chúng ta có thể đặt câu hỏi là xác định xác suất của hoa tươi trên 120 giờ
sau khi cắt như được mô tả ở Hình 3.14.
Giải:
Với thời gian 120 giờ, ta có giá trị Z như sau:
Z=(120-168) / 30=-1,6
Diện tích lớn hơn 168 sẽ tương ưứng với 0,5000 và diện tích cho Z=-1,6 là
0,4452. Vì vậy xác suất hoa còn tươi sau khi cắt 120 giờ sẽ là tổng của 2 diện tích
trên, tương ứng với 0,9452.
CHƯƠNG 4. GIỚI THIỆU VỀ CÁC KHÁI NIỆM LẤY MẪU
4.1. Giới thiệu chung
Trong nghiên cứu về môi trường cũng như khoa học nông nghiệp, việc thu thập
các số liệu để phân tích một vấn đề đòi hỏi phải lựa chọn những mẫu đại diện cho
các lĩnh vực nghiên cứu khác nhau. Từ đó có thể đưa ra những đặc trưng chung cho
một tổng thể nào đó. Việc thu thập mẫu thường chỉ chiếm phần nhỏ trong một tổng
48
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
thể rất lớn, do vậy việc lựa chọn và lấy mẫu có ý nghĩa rất quan trọng đặc trưng cho
tổng thể.
Việc lấy mẫu chính xác có nhiều lợi ích trong quá trình nghiên cứu.
- Giảm thời gian, tiền bạc và các nguồn tài nguyên cần thu thập
- Hạn chế việc gây ảnh hưởng đến tự nhiên do quá trình lấy mẫu gây ra
- Có thể cung cấp những thông tin cần thiết đại diện cho một tổng thể cần
nghiên cứu.
4.2. Các khái niệm về lấy mẫu đại diện
- Tổng thể (population):
Một tổng thể được xác định là toàn thể một nhóm các cá thể, các vật hoặc sự
kiện có ít nhất một đặc điểm chung nào đó mà ta cần nghiên cứu. Ví dụ một nhà
khoa học chăn nuôi có thể chú ý đến toàn bộ các cá thể sinh vật trong một quần thể.
Nhà khoa hoc môi trường có thể chú ý đến quần thể cá heo, nhà nông học có thể
quan tâm đến quần thể một giống lúa, nhà kinh tế nông nghiệp nói về các nông dân
sản xuất lúa mì.
Một tổng thể có thể có hạn hoặc vô hạn. Một tổng thể có hạn sẽ có một giới
hạn trên chính xác, trong khi một tổng thể vô hạn sẽ không bị hạn chế về kích cỡ của
nó.
-Tham số (parameter):
Tham số là sự ước lượng một hoặc nhiều tính chất của một tổng thể, Nếu
chúng ta tập hợp thông tin về thu nhập của người nông dân hàng năm là một tham số
cho một nhóm nông dân xác định nào đó.
Cần chú ý rằng điều này chỉ có thể xáy ra khi thời gian và sự chi phí hàng
năm sẽ là ổn định. Do vậy, hầu hết các thông số đều là ước lượng hoặc suy luận.
-Mẫu (sample):
49
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Một mẫu được khái niệm là một phần nhỏ của tổng thể được lấy ra theo một
qui tắc hoặc kế hoạch nào đó. Ví dụ một nhà làm vườn trồng 500 cây hoa trong một
nhà kính. Nếu ta lấy 50; 25 hoặc 10 cây hoa trong số đó ta có một mẫu. Vì vậy một
mẫu là một phần của tổng thể. Ngay cả khi ta lấy 499 cây hoa thì đó cũng chỉ là một
mẫu. Chỉ khi lấy cả 500 cây hoa thì lúc đó ta nghiên cứu một tổng thể.
Bởi vì tiếp cận với mẫu là dễ dàng hơn tổng thể nên thông thường các
nghiên cứu được thực hiện với mẫu rồi từ đó chúng ta sẽ suy luận cho tổng thể.
-Thống kê (statistic):
Thống kê bao gồm các đặc điểm của một mẫu đã được xác định. Ví dụ một
nhà làm vườn lựa chọn 50 cây hoa phong lan, đo đạc kích thước của bông hoa mới
nở và tính kích thước trung bình của chúng. Kết qủa tính toán này được gọi là một
phép thống kê. Thống kê suy luận là phương pháp dự báo các tham số chưa biết từ
phép thống kê đã biết.
4.3. Kỹ thuật lấy mẫu trong khoa học nông nghiệp và môi trường
Yêu cầu lấy mẫu phải đại diện cho một tổng thể nghiên cứu. Về cơ bản có 2
phương pháp lấy mẫu là lấy mẫu xác suất và lấy mẫu theo chủ định (không theo xác
suất). Trong lấy mẫu xác suất, tất cả các phần tử trong tổng thể nghiên cứu có cơ hội
ngang nhau để lựa chọn. Lấy mẫu không ngẫu nhiên (không theo xác suất) dựa trên
những đánh giá, quy ước nào đó để lựa chọn lấy mẫu.
4.3.1. Lấy mẫu xác suất
- Lấy mẫu ngẫu nhiên đơn giản: Đây là phươngpháp lẫy mẫu phổ biến thường
được áp dụng. Theo cách lấy mẫu này, mọi phần tử đều có cơ hội ngang nhau để
được lựa chọn. Ví dụ: Một tổng thể (N) bao gồm 50 cây ngô trong một thí nghiệm,
người nghiên cứu muốn lấy 20 cây để phân tích mô thì mọi cây ngô đều có thể được
lựa chọn để lấy mẫu. Sau khi trộn cẩn thận, cây ngô thứ nhất được lấy, rồi cây thứ
hai, thứ ba,... cho đến cây ngô thứ 20.
Để thuận tiện hơn, người ta sử dụng kỹ thuật đánh số ngẫu nhiên theo các
bước sau:
50
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
+Bước 1. Mỗi cây được đánh số thứ tự từ 01 đến 50 một cách ngẫu nhiên.
+Bước 2. Chọn ngẫu nhiên (theo bảng kê ngẫu nhiên) theo một cách tuỳ ý
+Bước 3. Lấy các cây ngô được đánh số đã dược lựa chọn ở bước 2 ta có mẫu
nghiên cứu.
-Lấy mẫu hệ thống:
Việc lấy mẫu ngẫu nhiên đơn giản như trình bày ở trên sẽ gặp khó khăn khi
số lượng mẫu lớn hoặc trong một tổng thể lớn. Trong trường hợp này có thể áp dụng
kỹ thuật lấy mẫu hệ thống hay còn gọi là lấy mẫu ngẫu nhiên đa bậc (Gomez, 1984)
bằng cách nhóm mỗi mười, hai mươi phần tử trong tổng thể thành một nhóm.
Ví dụ: Một nhà nghiên cứu muốn lấy mẫu ngẫu nhiên n=400 con bò từ một
tổng thể N=1600 con bò để nghiên cứu. Giả sử tổng thể đàn bò được phân bố một
cách ngẫu nhiên. Việc lấy mẫu được thực hiện bằng cách nhóm mỗi bốn con bò
thành một nhóm (vì 1600:400=4). Sau đó việc lựa chọn theo từng nhóm để được 4,
8, 12, 16, ... cho dến khi có 400 con bò.
- Lấy mẫu theo lớp: Trong kỹ thuật lấy mẫu này tổng thể được chia thành k lớp
hoặc dưới tổng thể trước khi lựa chọn một cách ngẫu nhiên các phần tử từ các lớp.
Việc lấy mẫu này rất phù hợp khi có sự sai khác nào đó giữa các lớp. Trong trường
hợp này người nghiên cứu cố gắng gộp các phần tử có tính chất khác nhau vào các
lớp khác nhau.
Ví dụ: Một nhà chăn nuôi muốn gộp mẫu ngẫu nhiên dựa vào tuổi của động
vật làm cơ sở cho sự khác nhau giữa chúng. Kết quả sẽ được các nhóm có lứa tuổi
khác nhau hay gọi là các lớp khác nhau. Sau đó cộng các nhóm từ mỗi lớp tuổi như
là việc lấy mẫu theo lớp.
Hoặc một nhà nông học có thể chia các lớp một ruộng thí nghiệm trên cơ sở
lượng phân bón, sau đó sẽ lấy mẫu cây từ mỗi ô bón phân khác nhau để xác định
năng suất. Trong nghiên cứu nông nghiệp, việc lấy mẫu theo lớp cũng tương ứng với
việc thiết kế thí nghiệm theo khối.
51
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Việc lấy mẫu theo lớp có nhiều lợi ích như bảo đảm độ chính xác với sự sai
khác nhỏ hơn so với lấy mẫu ngẫu nhiên đơn giản. Bảo đảm tính đồng nhất của mẫu
cao hơn so với tổng thể trong khi chi phí có thể ít hơn. Trong khoa học nông nghiệp
và môi trường, các nhà khoa học sử dụng nhiều cách khác nhau để lấy mẫu theo lớp.
Ví dụ: một nhà nghiên cứu ngô có thể sử dụng cách lấy mẫu theo lớp để xác
định số bắp trung bình trên cây như sau:
Các hàng ngô trong ruộng thí nghiệm sẽ được sử dụng như những đơn vị lấy
mẫu thứ nhất, các cây ngô trong mỗi hàng là đơn vị lấy mẫu thứ hai. Nghĩa là chúng
ta chia các cây ngô ở mỗi hàng được lựa chọn thành k lớp dựa vào vị trí tương đối
của chúng trong hàng, sau dó lấy ngẫu nhiên m cây từ mỗi lớp.
Giả sử rằng các cây ngô ở mỗi hàng được lựa chọn được chia thành 2 lớp
(lớp thấp và lớp cao) rồi chọn một cách ngẫu nhiên 5 cây ngô từ mỗi lớp. Tổng số
cây ngô sẽ dược lấy ở 3 hàng lựa chọn là:
(A)(B)(C) =S
Trong dó
A: Lớp (stratum)
B: Kích thước mẫu muốn lấy từ mỗi lớp
C: Tổng số hàng dược lựa chọn ngẫu nhiên
S: Tổng số cây sẽ được lấy
Với thí nghiệm trên ta có:
(2)(5)(3) = 30 cây
4.3.2. Lấy mẫu không theo xác suất
52
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Trong cách lấy mẫu này, các phần tử trong tổng thể sẽ không có cơ hội
ngang nhau trong khi lựa chọn do hạn chế về tài chính hoặc hạn chế của mẫu.
Những cách lấy mẫu thường gặp ở đây là lấy mẫu theo chủ ý, lấy mẫu theo tỷ lệ và
lấy mẫu thích hợp.
- Lấy mẫu chủ ý: Việc lấy mẫu phụ thuộc vào chủ ý của người nghiên cứu. Ví dụ
một công ty máy kéo sử dụng cách lấy mẫu này làm cơ sở để xác định thói quen
mua và sử dụng máy kéo. Người nghiên cứu sẽ lựa chọn những người nông dân
được cho là đại diện cho tất cả mọi người nông dân, sau đó sẽ thu thập các thông tin
cần thiết cho việc phân tích của họ.
- Lấy mẫu theo tỷ lệ: Trong kỹ thuật lấy mẫu này tính chất tổng thể lớn có vai trò
quan trọng trong việc lựa chọn mẫu. Ví dụ, một nhà khoa học chăn nuôi theo dõi sự
biến động sản lượng sữa hàng ngày ở các tuổi khác nhau. Như vậy dặc điẻm cơ bản
quan trọng để lựa chọn là các nhóm tuổi khác nhau. Ví dụ: Nếu 30% số bò có tuổi 4-
6 năm và 70% còn lại là 6-8 năm tuổi, thì chỉ tiêu lấy mẫu phải tương ứng với tỷ lệ
phần trăm này.
- Lấy mẫu thích hợp: Lấy mẫu phụ thuộc vào kinh phí, thời gian và sự cho phép.
Cách lấy mẫu này chỉ được sử dụng trong những trường hợp đặc biệt và không nên
sử dụng để suy doán cho tổng thể.
Nhìn chung lấy mẫu không ngẫu nhiên thường có sự dao động lớn so với lấy
mẫu ngẫu nhiên nên ít được sử dụng trong nghiên cứu.
4.4. Phân bố mẫu (sampling distribution)
Phân bố mẫu được hiểu là sự phân bố tần xuất cho xác suất cho tất cả các
khả năng của các mẫu có kích thước như nhau dược lấy ra từ một tổng thể.
Vì các số liệu thống kê từ mẫu được sử dụng để đặc trưng cho tổng thể nên
sự phân bố mẫu trong tổng thể có ý nghĩa rất quan trọng. Vì phân bố mẫu cũng là
phân bố xác suất nên dựa vào vấn đề này sẽ giúp chúng ta có những quyết định tốt
hơn khi lấy mẫu.
53
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Phân bố mẫu có thể được xây dựng từ một tổng thể riêng biệt có hạn. Có 3
tính chất quan trọng của một phân bố mẫu là:
1. Số trung bình của phân bố
2. Độ lệch chuẩn
3. Dạng phương trình hoặc mô hình phân bố
Phân bố mẫu của số trung bình: Như trên đã trình bày, số trung bình mẫu và
các tính chất khác của mẫu được sử dụng để suy luận cho tính chất của tổng thể.
Tuy nhiên trên thực tế, các số trung bình của mẫu thường ít khi ngang bằng
vơi số trung bình của tổng thể mà chỉ có giá trị xấp xỉ. Chính vì vậy khi tiếp cận lấy
mẫu thường gặp nhiều khó khăn. Nếu lấy mẫu có xem xét đến tất cả khả năng kết
hợp và tính giá trị trung bình và sự biến định thì rất khó khăn và mất nhiều thời gian.
Do vậy ta thường sử dụng phân bố mẫu để suy luận về tổng thể nghiên cứu. Vì phân
bố mẫu của số trung bình là một phân bố thường ta có thể sử dụng tỉ lệ % theo
đường cong thường từ bảng trị số chuẩn hoá Z (Z score).
Những ví dụ sau đây sẽ mô tả mối liên hệ giữa số trung bình và sự biến động
của phân bố mẫu với số trung bình và sự biến động tổng thể. Chúng ta có thể nhận
thấy số trung bình phân bố mẫu cũng chính là số trung bình tổng thể. Hơn nữa nó
cũng cho thấy sự phân bố mẫu của số trung bình cũng xấp xỉ với đường cong chuẩn.
Ví dụ 4.1.
Giả sử chúng ta có 5 con lợn, nếu ta chọn 2 con để làm thí nghiệm. Biến ngẫu
nhiên cần nghiên cứu (x) là khối lượng (kg) của lợn, với các số liệu sau:
x1 = 50, x2 = 45, x3 = 50, x4 = 45 và x5 = 40
Giải:
Trước hết ta tính giá trị trung bình số học cho tổng thể gồm 5 con lợn là:
54
kg
N
x
46
5
230
5
4045504550
==
++++
==
∑µ
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Bây giờ giả sử ta chỉ chọn hai con lợn bất kì trong chúng thì giá trị trung bình
của chúng sẽ sai khác thế nào với giá trị trung bình của tổng thể.
Bây giờ ta xây dựng phân bố mẫu của số trung bình và tính số trung bình của
chúng.
Như vậy sẽ có 10 khả năng kết hợp để có thể chọn được 2 con lợn từ tổng
thể. Bảng 4.2 cho biết các cách kết hợp và số trung bình của chúng.
Bảng 4.2. Số trung bình mẫu cho tất cả các khả năng lấy mẫu với 2 con lợn
Mẫu Giá trị kết hợp
mẫu
Tổng
∑ X
Trung bình
mẫu X
x1x2
x1x3
x1x4
x1x5
x2x3
x2x4
x2x5
x3x4
x3x5
x4x5
50
50
50
50
45
45
45
50
50
45
45
50
45
40
50
45
40
45
40
40
95
100
95
90
95
90
85
95
90
85
47,5
50,0
47,5
45,0
47,5
45,0
42,5
47,5
45,0
42,5
Từ Bảng 4.2 ta thấy giá trị trung bình có thể của tất các số trung bình mẫu sẽ
hướng tới số trung bình tổng thể. Nghĩa là số trung bình của phân bố mẫu (cột 4
Bảng 4.2) là giống với số trung bình tổng thể (46) được tính ở trên. Vì các số trung
55
10
!3!2
!5
)!(
!
==
−
=
rnr
n
Crn
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
bình mẫu có tần số xuất hiện khác nhau, sự phân bố mẫu sẽ không có ý nghĩa gì
nhưng phân bố xác suất lại rất có ý nghĩa (Bảng 4.3).
Bảng 4.3 Phân bố xác suất của các số trung bình mẫu
Số trung bình mẫu
( X )
Tần suất
(f)
(f X ) Xác suất
42,5
45,0
47,5
50,0
Tổng
2
3
4
1
10
85
135
190
50
460
2/10 = 0,20
3/10 = 0,30
4/10 = 0,40
1/10 = 0,10
10/10 = 1,00
Số trung bình của phân bố mẫu được xác định bằng cách cộng tất cả các số
trung bình mẫu rồi chia cho số khả năng lấy mẫu:
Khối lượng trung bình của lợn trong phân bố mẫu của số trung bình là 46kg.
Vì vậy chúng ta có thể nói rằng µ X =µ hay số trung bình của phân bố mẫu là bằng
số trung bình tổng thể.
Câu hỏi đặt ra là liệu µ X có luôn luôn bằng với µ ? Khi tính số trung bình
phân bố mẫu chúng ta lấy tất cả các khả năng kết hợp mẫu để tính và do vậy không
có sự sai khác với số trung bình tổng thể. Tuy nhiên trên thực tế, các nghiên cứu
thường không tính cho tất cả các cách kết hợp nên liệu số trung bình mẫu có gần
trùng với số trung bình tổng thể hay không vẫn còn là một câu hỏi.
Câu trả lời ở đây là có vì với kết quả của các thí nghiệm được lặp lại, các kết
quả xử lí thống kê đã chứng minh rằng số trung bình phân bố mẫu luôn hướng tới số
trung bình tổng thể.
- Độ lệch chuẩn của phân bố của số trung bình mẫu
56
]14[46
10
)5,42...5,47505,47()...( 321
−=
++++
=
++++
= kg
n
cxxxx rn
X
µ
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Để xác định khoảng trong đó số trung bình mẫu dao động so với số trung
bình tổng thể ta sử dụng phương pháp xác định mức độ phân tán chẳng hạn như độ
lệch chuẩn. Trong trường hợp phân bố trung bình mẫu, ta cũng chú ý đến độ lệch
của số trung bình mẫu từ số trung bình phân bố mẫu. Độ lệch chuẩn của phân bố
mẫu được thể hiện như sai số chuẩn của số trung bình (standard error of the mean).
Điều đó cho ta biết độ chính xác của phép ước lượng. Khi sai số chuẩn càng lớn thì
độ chính xác ước lượng càng nhỏ.
Cách tính độ lệch chuẩn của số trung bình được trình bày ở ví dụ 4.1. Cách
tính sai số chuẩn của số trung bình cũng tương tự cách tính các độ lệch chuẩn khác
( ) ]24[
2
−
−
=
∑
N
X X
X
µ
σ
Vì thực tế ta không lấy tất cả các khả năng kết hợp của mẫu trong một tổng
thể, vì vậy ta áp dụng công thức tính sai số chuẩn của số trung bình:
Trong đó: X
σ = sai số chuẩn của số trung bình.
σ = độ lệch chuẩn của tổng thể
n = kích (cỡ) mẫu
Công thức trên được sử dụng để tính sai số chuẩn của số trung bình cho tổng
thể vô hạn. Tuy nhiên trong trường hợp một tổng thể có hạn chúng ta áp dụng công
thức có tính đến các yếu tố hiệu chỉnh như sau:
Trong đó σ = Độ lệch chuẩn tổng thể
57
29.2
10
50,52
10
)465,42(...)4650()465,47()( 2222
==
−++−+−
=
−
=
∑
N
x x
x
µ
σ
]34[ −=
nx
σ
σ
]44[
1
−
−
−
=
N
nN
nX
σ
σ
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
N = kích thước tổng thể
n = kích thước mẫu
1−
−
N
nN
= yếu tố hiệu chỉnh cho tổng thể giới hạn
Yếu tố hiệu chỉnh độ chính xác ( ) ( )1−− NnN là giá trị sấp sỉ 1 khi kích
thước tổng thể N là tương đối lớn so với kích thước mẫu n. Điều này có nghĩa là khi
kích thước mẫu n được lấy từ một tổng thể rất lớn (nhưng có giới hạn) thì sai số
chuẩn của số trung bình X
σ sẽ bằng nσ Trong thực tế, yếu tố hiệu chỉnh của
một tổng thể có hạn được áp dụng cả khi n nhỏ hơn 10% của N.
Cần chú ý rằng phương trình trên đòi hỏi phải biết được độ lệch chuẩn của
tổng thể. Từ số liệu đã cho ở ví dụ 4.1 ta có thể tính độ lệch chuẩn của tổng thể như
được trình bày ở chương 2 (mục 2.4)
Trong ví dụ này ta có một tổng thể tới hạn nên ta áp dụng yếu tố hiệu chỉnh.
Do vậy sai số chỉnh cho dãy số liệu này là:
Từ ví dụ này cho thấy cách tính sai số chuẩn của số trung bình bằng hai
phương pháp là như nhau. Cần lưu ý rằng độ lệch chuẩn của tổng thể sẽ không bằng
độ lệch chuẩn của phân bố trung bình mẫu. Tuy nhiên độ lệch chuẩn của phân bố
mẫu lại bằng độ lệch chuẩn của tổng thể chia cho căn bậc hai của mẫu. Nghĩa là:
58
74,3
5
70
5
)4640(...)4654()4650()( 2222
==
−++−+−
=
−
=
∑
N
X µ
σ
29,2)8660,0(64,2
15
25
2
74,3
==
−
−
=X
σ
nX
σ
σ =
Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng
__________________________________________________________________
______
Phương trình này chỉ rõ hai mối quan hệ tồn tại giữa sai số chuẩn và kích
thước mẫu. Trước hết khi cỡ mẫu tăng thì sai số chuẩn sẽ giảm đi. Thứ hai, ta có thể
xác định sai số chuẩn của phân bố trung bình mẫu khi đã biết độ lệch chuẩn tổng thể
(σ), kích thước mẫu (n) và kích thước tổng thể (N). Khi không biết được độ lệch
chuẩn tổng thể, thì sẽ sử dụng các giá trị của độ lệch chuẩn mẫu (hoặc nhiều mẫu)
như số sấp sỉ cho độ lệch chuẩn tổng thể. Ta có công thức tính độ lệch chuẩn tổng
thể như sau:
Có rất nhiều quan trắc có thể sử dụng phân bố trung bình mẫu và tổng thể:
1. Số trung bình tổng thể và phân bố trung bình mẫu của các số trung bình là
bằng nhau. Điều này luôn luôn đúng khi tất cả các khả năng lấy mẫu đều được lấy từ
tổng thể.
2. Sự phân tán của phân bố trung bình mẫu là nhỏ hơn sự phân tán trong tổng
thể. Như ví dụ ở bảng 4.2 các giá trị của tổng thể dao động từ 40 đến 50 kg, trong
khi các số trung bình mẫu dao động từ 42,5 đến 50 kg.
3. Sơ đồ phân bố trung bình mẫu có xu hướng gần với đường cong chuẩn
thậm chí ngay khi tổng thể không có phân bố chuẩn.
Cần chú ý rằng mặc dù tấn suất tương đối của các giá trị riêng rẽ của X là
bằng nhau, và do vậy phân bố tần suất tương đối bằng phẳng. Sự phân bố của các
trung bình mẫu lại ít nhiều có dạng hình chuông. Điểm quan trọng cần ghi nhớ là dù
tổng thể có phân bố chuẩn hay không thì phân bố trung bình mẫu cũng có xu hướng
xấp xỉ với đường cong chuẩn thông thường. Điều này có liên quan trực tiếp với định
lí giới hạn trung tâm, nghĩa là khi mẫu có kích thước n đủ lớn thì phân bố trung bình
mẫu sẽ hướng tới một phân bố chuẩn.
Vấn đề là kích thước mẫu như thế nào thì được xem là đủ lớn. Trong thống kê
được sử dụng ở đây, khi kích thước mẫu là 30 sẽ được coi là đủ lớn để có thể giả
59
]54[ −=
n
s
X
σ
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)
[123doc.vn]   phuong-phap-thong-ke-moi-truong (1)

More Related Content

What's hot

4.3. chuong 4 (tt). cong nghe bun hoat tinh aerotank
4.3. chuong 4 (tt). cong nghe bun hoat tinh aerotank4.3. chuong 4 (tt). cong nghe bun hoat tinh aerotank
4.3. chuong 4 (tt). cong nghe bun hoat tinh aerotankhunglamvinh
 
Nghiên cứu xử lý amoni trong nước rỉ rác bằng phương pháp lọc sinh học
Nghiên cứu xử lý amoni trong nước rỉ rác bằng phương pháp lọc sinh họcNghiên cứu xử lý amoni trong nước rỉ rác bằng phương pháp lọc sinh học
Nghiên cứu xử lý amoni trong nước rỉ rác bằng phương pháp lọc sinh họcTÀI LIỆU NGÀNH MAY
 
Giao Trinh Ky thuat xu ly khi thai
Giao Trinh Ky thuat xu ly khi thaiGiao Trinh Ky thuat xu ly khi thai
Giao Trinh Ky thuat xu ly khi thaiTam Tran
 
Xây dựng quy trình lấy mẫu không khí xung quanh từ việc đốt sinh khối
Xây dựng quy trình lấy mẫu không khí xung quanh từ việc đốt sinh khốiXây dựng quy trình lấy mẫu không khí xung quanh từ việc đốt sinh khối
Xây dựng quy trình lấy mẫu không khí xung quanh từ việc đốt sinh khốiCat Love
 
Bài giảng chương 3 xử lý mẫu
Bài giảng chương 3 xử lý mẫuBài giảng chương 3 xử lý mẫu
Bài giảng chương 3 xử lý mẫuNhat Tam Nhat Tam
 
[Luanvandaihoc.com] Xử Lý Ô Nhiễm Đất Do Thuốc Bảo Vệ Thực Vật
[Luanvandaihoc.com] Xử Lý Ô Nhiễm Đất Do Thuốc Bảo Vệ Thực Vật[Luanvandaihoc.com] Xử Lý Ô Nhiễm Đất Do Thuốc Bảo Vệ Thực Vật
[Luanvandaihoc.com] Xử Lý Ô Nhiễm Đất Do Thuốc Bảo Vệ Thực VậtThư viện luận văn đại hoc
 
đáNh giá hiện trạng môi trường ngành công nghiệp giấy ở khu vực tỉnh đồng nai...
đáNh giá hiện trạng môi trường ngành công nghiệp giấy ở khu vực tỉnh đồng nai...đáNh giá hiện trạng môi trường ngành công nghiệp giấy ở khu vực tỉnh đồng nai...
đáNh giá hiện trạng môi trường ngành công nghiệp giấy ở khu vực tỉnh đồng nai...https://www.facebook.com/garmentspace
 
Xử lý nước thải bằng phương pháp sinh học.pdf
Xử lý nước thải bằng phương pháp sinh học.pdfXử lý nước thải bằng phương pháp sinh học.pdf
Xử lý nước thải bằng phương pháp sinh học.pdfNhuoc Tran
 
Phương pháp xử lý số liệu
Phương pháp xử lý số liệuPhương pháp xử lý số liệu
Phương pháp xử lý số liệunguoitinhmenyeu
 
Tính toán, thiết kế hệ thống xử lý nước thải chăn nuôi cho công ty tnhh chăn ...
Tính toán, thiết kế hệ thống xử lý nước thải chăn nuôi cho công ty tnhh chăn ...Tính toán, thiết kế hệ thống xử lý nước thải chăn nuôi cho công ty tnhh chăn ...
Tính toán, thiết kế hệ thống xử lý nước thải chăn nuôi cho công ty tnhh chăn ...TÀI LIỆU NGÀNH MAY
 
Báo cáo hóa sinh
Báo cáo hóa sinhBáo cáo hóa sinh
Báo cáo hóa sinhThao Truong
 
Bước đầu phân lập tuyển chọn một số chủng vi khuẩn xử lý nitrate trong nước thải
Bước đầu phân lập tuyển chọn một số chủng vi khuẩn xử lý nitrate trong nước thảiBước đầu phân lập tuyển chọn một số chủng vi khuẩn xử lý nitrate trong nước thải
Bước đầu phân lập tuyển chọn một số chủng vi khuẩn xử lý nitrate trong nước thảiTÀI LIỆU NGÀNH MAY
 

What's hot (20)

4.3. chuong 4 (tt). cong nghe bun hoat tinh aerotank
4.3. chuong 4 (tt). cong nghe bun hoat tinh aerotank4.3. chuong 4 (tt). cong nghe bun hoat tinh aerotank
4.3. chuong 4 (tt). cong nghe bun hoat tinh aerotank
 
BÀI MẪU Báo cáo thực tập ngành môi trường, HAY, 9 ĐIỂM
BÀI MẪU Báo cáo thực tập ngành môi trường, HAY, 9 ĐIỂMBÀI MẪU Báo cáo thực tập ngành môi trường, HAY, 9 ĐIỂM
BÀI MẪU Báo cáo thực tập ngành môi trường, HAY, 9 ĐIỂM
 
Luận văn: Đánh giá thực trạng và đề xuất giải pháp nâng cao hiệu quả công tác...
Luận văn: Đánh giá thực trạng và đề xuất giải pháp nâng cao hiệu quả công tác...Luận văn: Đánh giá thực trạng và đề xuất giải pháp nâng cao hiệu quả công tác...
Luận văn: Đánh giá thực trạng và đề xuất giải pháp nâng cao hiệu quả công tác...
 
Nghiên cứu xử lý amoni trong nước rỉ rác bằng phương pháp lọc sinh học
Nghiên cứu xử lý amoni trong nước rỉ rác bằng phương pháp lọc sinh họcNghiên cứu xử lý amoni trong nước rỉ rác bằng phương pháp lọc sinh học
Nghiên cứu xử lý amoni trong nước rỉ rác bằng phương pháp lọc sinh học
 
Giao Trinh Ky thuat xu ly khi thai
Giao Trinh Ky thuat xu ly khi thaiGiao Trinh Ky thuat xu ly khi thai
Giao Trinh Ky thuat xu ly khi thai
 
Luận văn: Quản lý chất thải rắn sinh hoạt tại Hà Nội, HAY, 9đ
Luận văn: Quản lý chất thải rắn sinh hoạt tại Hà Nội, HAY, 9đLuận văn: Quản lý chất thải rắn sinh hoạt tại Hà Nội, HAY, 9đ
Luận văn: Quản lý chất thải rắn sinh hoạt tại Hà Nội, HAY, 9đ
 
Xây dựng quy trình lấy mẫu không khí xung quanh từ việc đốt sinh khối
Xây dựng quy trình lấy mẫu không khí xung quanh từ việc đốt sinh khốiXây dựng quy trình lấy mẫu không khí xung quanh từ việc đốt sinh khối
Xây dựng quy trình lấy mẫu không khí xung quanh từ việc đốt sinh khối
 
Bài giảng chương 3 xử lý mẫu
Bài giảng chương 3 xử lý mẫuBài giảng chương 3 xử lý mẫu
Bài giảng chương 3 xử lý mẫu
 
[Luanvandaihoc.com] Xử Lý Ô Nhiễm Đất Do Thuốc Bảo Vệ Thực Vật
[Luanvandaihoc.com] Xử Lý Ô Nhiễm Đất Do Thuốc Bảo Vệ Thực Vật[Luanvandaihoc.com] Xử Lý Ô Nhiễm Đất Do Thuốc Bảo Vệ Thực Vật
[Luanvandaihoc.com] Xử Lý Ô Nhiễm Đất Do Thuốc Bảo Vệ Thực Vật
 
đáNh giá hiện trạng môi trường ngành công nghiệp giấy ở khu vực tỉnh đồng nai...
đáNh giá hiện trạng môi trường ngành công nghiệp giấy ở khu vực tỉnh đồng nai...đáNh giá hiện trạng môi trường ngành công nghiệp giấy ở khu vực tỉnh đồng nai...
đáNh giá hiện trạng môi trường ngành công nghiệp giấy ở khu vực tỉnh đồng nai...
 
Cong thuc dinh luong
Cong thuc dinh luongCong thuc dinh luong
Cong thuc dinh luong
 
Luận văn: Công nghệ xử lý nước thải công nghiệp mạ điện, HAY
Luận văn: Công nghệ xử lý nước thải công nghiệp mạ điện, HAYLuận văn: Công nghệ xử lý nước thải công nghiệp mạ điện, HAY
Luận văn: Công nghệ xử lý nước thải công nghiệp mạ điện, HAY
 
Xử lý nước thải bằng phương pháp sinh học.pdf
Xử lý nước thải bằng phương pháp sinh học.pdfXử lý nước thải bằng phương pháp sinh học.pdf
Xử lý nước thải bằng phương pháp sinh học.pdf
 
Đề tài: Đánh giá ô nhiễm hóa chất bảo vệ thực vật tại Nghệ An, HAY
Đề tài: Đánh giá ô nhiễm hóa chất bảo vệ thực vật tại Nghệ An, HAYĐề tài: Đánh giá ô nhiễm hóa chất bảo vệ thực vật tại Nghệ An, HAY
Đề tài: Đánh giá ô nhiễm hóa chất bảo vệ thực vật tại Nghệ An, HAY
 
Phương pháp xử lý số liệu
Phương pháp xử lý số liệuPhương pháp xử lý số liệu
Phương pháp xử lý số liệu
 
Tính toán, thiết kế hệ thống xử lý nước thải chăn nuôi cho công ty tnhh chăn ...
Tính toán, thiết kế hệ thống xử lý nước thải chăn nuôi cho công ty tnhh chăn ...Tính toán, thiết kế hệ thống xử lý nước thải chăn nuôi cho công ty tnhh chăn ...
Tính toán, thiết kế hệ thống xử lý nước thải chăn nuôi cho công ty tnhh chăn ...
 
ỨNG DỤNG KỸ THUẬT THỦY CANH (HYDROPONICS) TRỒNG MỘT SỐ RAU THEO MÔ HÌNH GIA Đ...
ỨNG DỤNG KỸ THUẬT THỦY CANH (HYDROPONICS) TRỒNG MỘT SỐ RAU THEO MÔ HÌNH GIA Đ...ỨNG DỤNG KỸ THUẬT THỦY CANH (HYDROPONICS) TRỒNG MỘT SỐ RAU THEO MÔ HÌNH GIA Đ...
ỨNG DỤNG KỸ THUẬT THỦY CANH (HYDROPONICS) TRỒNG MỘT SỐ RAU THEO MÔ HÌNH GIA Đ...
 
Báo cáo hóa sinh
Báo cáo hóa sinhBáo cáo hóa sinh
Báo cáo hóa sinh
 
Luận văn Thạc sĩ Đánh giá hiện trạng quản lý rác thải sinh hoạt tại qu...
Luận văn Thạc sĩ Đánh  giá  hiện trạng quản lý  rác thải  sinh  hoạt  tại  qu...Luận văn Thạc sĩ Đánh  giá  hiện trạng quản lý  rác thải  sinh  hoạt  tại  qu...
Luận văn Thạc sĩ Đánh giá hiện trạng quản lý rác thải sinh hoạt tại qu...
 
Bước đầu phân lập tuyển chọn một số chủng vi khuẩn xử lý nitrate trong nước thải
Bước đầu phân lập tuyển chọn một số chủng vi khuẩn xử lý nitrate trong nước thảiBước đầu phân lập tuyển chọn một số chủng vi khuẩn xử lý nitrate trong nước thải
Bước đầu phân lập tuyển chọn một số chủng vi khuẩn xử lý nitrate trong nước thải
 

Similar to [123doc.vn] phuong-phap-thong-ke-moi-truong (1)

BƢỚC ĐẦU ỨNG DỤNG KỸ THUẬT KHÍ CANH TRONG VIỆC TRỒNG MỘT SỐ LOẠI RAU XANH_105...
BƢỚC ĐẦU ỨNG DỤNG KỸ THUẬT KHÍ CANH TRONG VIỆC TRỒNG MỘT SỐ LOẠI RAU XANH_105...BƢỚC ĐẦU ỨNG DỤNG KỸ THUẬT KHÍ CANH TRONG VIỆC TRỒNG MỘT SỐ LOẠI RAU XANH_105...
BƢỚC ĐẦU ỨNG DỤNG KỸ THUẬT KHÍ CANH TRONG VIỆC TRỒNG MỘT SỐ LOẠI RAU XANH_105...PinkHandmade
 
BƯỚC ĐẦU ỨNG DỤNG KỸ THUẬT KHÍ CANH TRONG VIỆC TRỒNG MỘT SỐ LOẠI RAU XANH_101...
BƯỚC ĐẦU ỨNG DỤNG KỸ THUẬT KHÍ CANH TRONG VIỆC TRỒNG MỘT SỐ LOẠI RAU XANH_101...BƯỚC ĐẦU ỨNG DỤNG KỸ THUẬT KHÍ CANH TRONG VIỆC TRỒNG MỘT SỐ LOẠI RAU XANH_101...
BƯỚC ĐẦU ỨNG DỤNG KỸ THUẬT KHÍ CANH TRONG VIỆC TRỒNG MỘT SỐ LOẠI RAU XANH_101...hanhha12
 
Thực trạng an toàn vệ sinh thực phẩm thức ăn đường phố tại một số huyện của t...
Thực trạng an toàn vệ sinh thực phẩm thức ăn đường phố tại một số huyện của t...Thực trạng an toàn vệ sinh thực phẩm thức ăn đường phố tại một số huyện của t...
Thực trạng an toàn vệ sinh thực phẩm thức ăn đường phố tại một số huyện của t...https://www.facebook.com/garmentspace
 
Nghiên cứu hoạt tính kháng sinh và gây độc tế bào của vi nấm nội sinh trên câ...
Nghiên cứu hoạt tính kháng sinh và gây độc tế bào của vi nấm nội sinh trên câ...Nghiên cứu hoạt tính kháng sinh và gây độc tế bào của vi nấm nội sinh trên câ...
Nghiên cứu hoạt tính kháng sinh và gây độc tế bào của vi nấm nội sinh trên câ...TÀI LIỆU NGÀNH MAY
 
Nghiên Cứu Hiệu Quả Sử Dụng Đệm Lót Sinh Học Trong Xử Lý Môi Trường Chăn Nuôi...
Nghiên Cứu Hiệu Quả Sử Dụng Đệm Lót Sinh Học Trong Xử Lý Môi Trường Chăn Nuôi...Nghiên Cứu Hiệu Quả Sử Dụng Đệm Lót Sinh Học Trong Xử Lý Môi Trường Chăn Nuôi...
Nghiên Cứu Hiệu Quả Sử Dụng Đệm Lót Sinh Học Trong Xử Lý Môi Trường Chăn Nuôi...nataliej4
 
Giá trị tiên lượng của hội chứng suy dinh dưỡng - viêm - xơ vữa ở bệnh nhân t...
Giá trị tiên lượng của hội chứng suy dinh dưỡng - viêm - xơ vữa ở bệnh nhân t...Giá trị tiên lượng của hội chứng suy dinh dưỡng - viêm - xơ vữa ở bệnh nhân t...
Giá trị tiên lượng của hội chứng suy dinh dưỡng - viêm - xơ vữa ở bệnh nhân t...Dịch vụ viết thuê Khóa Luận - ZALO 0932091562
 
Nghiên cứu đa dạng sinh học và phân bố của ve giáp tại đất trồng hoa cúc thuộ...
Nghiên cứu đa dạng sinh học và phân bố của ve giáp tại đất trồng hoa cúc thuộ...Nghiên cứu đa dạng sinh học và phân bố của ve giáp tại đất trồng hoa cúc thuộ...
Nghiên cứu đa dạng sinh học và phân bố của ve giáp tại đất trồng hoa cúc thuộ...TÀI LIỆU NGÀNH MAY
 
Phân tích vai trò của gốc methionine trong cấu trúc nhân tố phiên mã ở cây đậ...
Phân tích vai trò của gốc methionine trong cấu trúc nhân tố phiên mã ở cây đậ...Phân tích vai trò của gốc methionine trong cấu trúc nhân tố phiên mã ở cây đậ...
Phân tích vai trò của gốc methionine trong cấu trúc nhân tố phiên mã ở cây đậ...TÀI LIỆU NGÀNH MAY
 
Khóa luận ngành dược học.
Khóa luận ngành dược học.Khóa luận ngành dược học.
Khóa luận ngành dược học.ssuser499fca
 
PHÂN TÍCH TÌNH HÌNH SỬ DỤNG KHÁNG SINH VANCOMYCIN TẠI BỆNH VIỆN LÃO KHOA TRUN...
PHÂN TÍCH TÌNH HÌNH SỬ DỤNG KHÁNG SINH VANCOMYCIN TẠI BỆNH VIỆN LÃO KHOA TRUN...PHÂN TÍCH TÌNH HÌNH SỬ DỤNG KHÁNG SINH VANCOMYCIN TẠI BỆNH VIỆN LÃO KHOA TRUN...
PHÂN TÍCH TÌNH HÌNH SỬ DỤNG KHÁNG SINH VANCOMYCIN TẠI BỆNH VIỆN LÃO KHOA TRUN...NuioKila
 

Similar to [123doc.vn] phuong-phap-thong-ke-moi-truong (1) (20)

Đề tài: Đánh giá sử dụng kháng sinh tại bệnh viện Việt Đức, HAY
Đề tài: Đánh giá sử dụng kháng sinh tại bệnh viện Việt Đức, HAYĐề tài: Đánh giá sử dụng kháng sinh tại bệnh viện Việt Đức, HAY
Đề tài: Đánh giá sử dụng kháng sinh tại bệnh viện Việt Đức, HAY
 
Đề tài: Nghiên cứu đánh giá sử dụng kháng sinh tại bệnh viện, HAY
Đề tài: Nghiên cứu đánh giá sử dụng kháng sinh tại bệnh viện, HAYĐề tài: Nghiên cứu đánh giá sử dụng kháng sinh tại bệnh viện, HAY
Đề tài: Nghiên cứu đánh giá sử dụng kháng sinh tại bệnh viện, HAY
 
BƢỚC ĐẦU ỨNG DỤNG KỸ THUẬT KHÍ CANH TRONG VIỆC TRỒNG MỘT SỐ LOẠI RAU XANH_105...
BƢỚC ĐẦU ỨNG DỤNG KỸ THUẬT KHÍ CANH TRONG VIỆC TRỒNG MỘT SỐ LOẠI RAU XANH_105...BƢỚC ĐẦU ỨNG DỤNG KỸ THUẬT KHÍ CANH TRONG VIỆC TRỒNG MỘT SỐ LOẠI RAU XANH_105...
BƢỚC ĐẦU ỨNG DỤNG KỸ THUẬT KHÍ CANH TRONG VIỆC TRỒNG MỘT SỐ LOẠI RAU XANH_105...
 
BƯỚC ĐẦU ỨNG DỤNG KỸ THUẬT KHÍ CANH TRONG VIỆC TRỒNG MỘT SỐ LOẠI RAU XANH_101...
BƯỚC ĐẦU ỨNG DỤNG KỸ THUẬT KHÍ CANH TRONG VIỆC TRỒNG MỘT SỐ LOẠI RAU XANH_101...BƯỚC ĐẦU ỨNG DỤNG KỸ THUẬT KHÍ CANH TRONG VIỆC TRỒNG MỘT SỐ LOẠI RAU XANH_101...
BƯỚC ĐẦU ỨNG DỤNG KỸ THUẬT KHÍ CANH TRONG VIỆC TRỒNG MỘT SỐ LOẠI RAU XANH_101...
 
Luận án: Xây dựng mô hình tăng trưởng đường kính rừng tự nhiên
Luận án: Xây dựng mô hình tăng trưởng đường kính rừng tự nhiênLuận án: Xây dựng mô hình tăng trưởng đường kính rừng tự nhiên
Luận án: Xây dựng mô hình tăng trưởng đường kính rừng tự nhiên
 
Thực trạng an toàn vệ sinh thực phẩm thức ăn đường phố tại một số huyện của t...
Thực trạng an toàn vệ sinh thực phẩm thức ăn đường phố tại một số huyện của t...Thực trạng an toàn vệ sinh thực phẩm thức ăn đường phố tại một số huyện của t...
Thực trạng an toàn vệ sinh thực phẩm thức ăn đường phố tại một số huyện của t...
 
Nghiên cứu hoạt tính kháng sinh và gây độc tế bào của vi nấm nội sinh trên câ...
Nghiên cứu hoạt tính kháng sinh và gây độc tế bào của vi nấm nội sinh trên câ...Nghiên cứu hoạt tính kháng sinh và gây độc tế bào của vi nấm nội sinh trên câ...
Nghiên cứu hoạt tính kháng sinh và gây độc tế bào của vi nấm nội sinh trên câ...
 
Nghiên Cứu Hiệu Quả Sử Dụng Đệm Lót Sinh Học Trong Xử Lý Môi Trường Chăn Nuôi...
Nghiên Cứu Hiệu Quả Sử Dụng Đệm Lót Sinh Học Trong Xử Lý Môi Trường Chăn Nuôi...Nghiên Cứu Hiệu Quả Sử Dụng Đệm Lót Sinh Học Trong Xử Lý Môi Trường Chăn Nuôi...
Nghiên Cứu Hiệu Quả Sử Dụng Đệm Lót Sinh Học Trong Xử Lý Môi Trường Chăn Nuôi...
 
Chụp cắt lớp vi tính trong chẩn đoán, theo dõi bệnh sán lá gan lớn
Chụp cắt lớp vi tính trong chẩn đoán, theo dõi bệnh sán lá gan lớnChụp cắt lớp vi tính trong chẩn đoán, theo dõi bệnh sán lá gan lớn
Chụp cắt lớp vi tính trong chẩn đoán, theo dõi bệnh sán lá gan lớn
 
Hội chứng suy dinh dưỡng - viêm - xơ vữa ở bệnh nhân thận, HAY
Hội chứng suy dinh dưỡng - viêm - xơ vữa ở bệnh nhân thận, HAYHội chứng suy dinh dưỡng - viêm - xơ vữa ở bệnh nhân thận, HAY
Hội chứng suy dinh dưỡng - viêm - xơ vữa ở bệnh nhân thận, HAY
 
Giá trị tiên lượng của hội chứng suy dinh dưỡng - viêm - xơ vữa ở bệnh nhân t...
Giá trị tiên lượng của hội chứng suy dinh dưỡng - viêm - xơ vữa ở bệnh nhân t...Giá trị tiên lượng của hội chứng suy dinh dưỡng - viêm - xơ vữa ở bệnh nhân t...
Giá trị tiên lượng của hội chứng suy dinh dưỡng - viêm - xơ vữa ở bệnh nhân t...
 
Đặc điểm giá trị tiên lượng của hội chứng suy dinh dưỡng - viêm - xơ vữa
Đặc điểm giá trị tiên lượng của hội chứng suy dinh dưỡng - viêm - xơ vữaĐặc điểm giá trị tiên lượng của hội chứng suy dinh dưỡng - viêm - xơ vữa
Đặc điểm giá trị tiên lượng của hội chứng suy dinh dưỡng - viêm - xơ vữa
 
Đề tài: Nghiên cứu đặc điểm và giá trị tiên lượng của hội chứng suy dinh dưỡn...
Đề tài: Nghiên cứu đặc điểm và giá trị tiên lượng của hội chứng suy dinh dưỡn...Đề tài: Nghiên cứu đặc điểm và giá trị tiên lượng của hội chứng suy dinh dưỡn...
Đề tài: Nghiên cứu đặc điểm và giá trị tiên lượng của hội chứng suy dinh dưỡn...
 
Nghiên cứu đa dạng sinh học và phân bố của ve giáp tại đất trồng hoa cúc thuộ...
Nghiên cứu đa dạng sinh học và phân bố của ve giáp tại đất trồng hoa cúc thuộ...Nghiên cứu đa dạng sinh học và phân bố của ve giáp tại đất trồng hoa cúc thuộ...
Nghiên cứu đa dạng sinh học và phân bố của ve giáp tại đất trồng hoa cúc thuộ...
 
Phân tích vai trò của gốc methionine trong cấu trúc nhân tố phiên mã ở cây đậ...
Phân tích vai trò của gốc methionine trong cấu trúc nhân tố phiên mã ở cây đậ...Phân tích vai trò của gốc methionine trong cấu trúc nhân tố phiên mã ở cây đậ...
Phân tích vai trò của gốc methionine trong cấu trúc nhân tố phiên mã ở cây đậ...
 
Khóa luận ngành dược học.
Khóa luận ngành dược học.Khóa luận ngành dược học.
Khóa luận ngành dược học.
 
Luận văn: Thử nghiệm hạt nano kim loại chẩn đoán vi khuẩn lao
Luận văn: Thử nghiệm hạt nano kim loại chẩn đoán vi khuẩn laoLuận văn: Thử nghiệm hạt nano kim loại chẩn đoán vi khuẩn lao
Luận văn: Thử nghiệm hạt nano kim loại chẩn đoán vi khuẩn lao
 
Luận văn: Hạt nano kim loại trong chẩn đoán vi khuẩn lao, HOT, 9đ
Luận văn: Hạt nano kim loại trong chẩn đoán vi khuẩn lao, HOT, 9đLuận văn: Hạt nano kim loại trong chẩn đoán vi khuẩn lao, HOT, 9đ
Luận văn: Hạt nano kim loại trong chẩn đoán vi khuẩn lao, HOT, 9đ
 
Luận văn: Nghiên cứu thành phần loài, đặc trưng phân bố của mối
Luận văn: Nghiên cứu thành phần loài, đặc trưng phân bố của mốiLuận văn: Nghiên cứu thành phần loài, đặc trưng phân bố của mối
Luận văn: Nghiên cứu thành phần loài, đặc trưng phân bố của mối
 
PHÂN TÍCH TÌNH HÌNH SỬ DỤNG KHÁNG SINH VANCOMYCIN TẠI BỆNH VIỆN LÃO KHOA TRUN...
PHÂN TÍCH TÌNH HÌNH SỬ DỤNG KHÁNG SINH VANCOMYCIN TẠI BỆNH VIỆN LÃO KHOA TRUN...PHÂN TÍCH TÌNH HÌNH SỬ DỤNG KHÁNG SINH VANCOMYCIN TẠI BỆNH VIỆN LÃO KHOA TRUN...
PHÂN TÍCH TÌNH HÌNH SỬ DỤNG KHÁNG SINH VANCOMYCIN TẠI BỆNH VIỆN LÃO KHOA TRUN...
 

[123doc.vn] phuong-phap-thong-ke-moi-truong (1)

  • 1. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Nguyễn Xuân Cự BÀI GIẢNG PHƯƠNG PHÁP THỐNG KÊ TRONG KHOA HỌC NÔNG NGHIỆP VÀ MÔI TRƯỜNG (Lưu hành nội bộ)
  • 2. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Hà Nội , 2008 MỤC LỤC Đ I H C QU C GIA HÀ N IẠ Ọ Ố Ộ .........................................................................1 TR NG Đ I H C KHOA H C T NHIÊNƯỜ Ạ Ọ Ọ Ự ..................................................1 Nguy n Xuân Cễ ự............................................................................................1 BÀI GI NGẢ ......................................................................................................1 PH NG PHÁP TH NG KÊƯƠ Ố .........................................................................1 TRONG KHOA H C NÔNG NGHI PỌ Ệ ............................................................1 VÀ MÔI TR NGƯỜ ...........................................................................................1 (L u hành n i b )ư ộ ộ ............................................................................................1 Hà N i , 2008ộ ..................................................................................................2 M C L CỤ Ụ ........................................................................................................2 PH N 1. PH NG PHÁP TH NG KÊ MÔ TẦ ƯƠ Ố Ả..............................................3 CH NG 3. LÝ THUY T XÁC SU TƯƠ Ế Ấ ..........................................................26 CH NG 4. GI I THI U V CÁC KHÁI NI M L Y M UƯƠ Ớ Ệ Ề Ệ Ấ Ẫ ..........................48 Ch ng 5. C L NG CÁC THAM Sươ ƯỚ ƯỢ Ố....................................................64 S TRUNG BÌNH VÀ T L PH N TRĂMỐ Ỷ Ệ Ầ ..................................................64 PH N 3. KI M Đ NH GI THI T TH NG KÊẦ Ể Ị Ả Ế Ố ..............................................74 V CÁC THAM S Đ C TR NG M UỀ Ố Ặ Ư Ẫ ........................................................74 Ch ng 6. KI M Đ NH GI THI T TRONG TR NG H P M T M Uươ Ể Ị Ả Ế ƯỜ Ợ Ộ Ẫ .....74 Ch ng 7. KI M TRA GI THI T TRONG TR NG H P HAI M Uươ Ể Ả Ế ƯỜ Ợ Ẫ .........91 Ch ng 8. PHÂN TÍCH PH NG SAIươ ƯƠ .......................................................105 PH N 4 PH NG PHÁP KI M Đ NH PHI THAM SẦ ƯƠ Ể Ị Ố...............................128 CH NG 9 PHÂN TÍCH KHI BÌNH PH NG (χ2)ƯƠ ƯƠ ...................................128 Ch ng 10. M T S PH NG PHÁP KHÁCươ Ộ Ố ƯƠ ..........................................143 KI M Đ NH PHI THAM SỂ Ị Ố.........................................................................143 PH N 5. KI M TRA S LIÊN K T VÀ D ĐOÁNẦ Ể Ự Ế Ự .....................................158 Ch ng 11. T NG QUAN VÀ H I QUY Đ N GI Nươ ƯƠ Ồ Ơ Ả ...............................158 Ch ng 12. T NG QUAN B I (H I QUI NHI U BI N)ươ ƯƠ Ộ Ồ Ề Ế .........................177 2
  • 3. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ PHẦN 1. PHƯƠNG PHÁP THỐNG KÊ MÔ TẢ Chương 1. GIỚI THIỆU CHUNG Thống kê có vai trò to lớn trong phân tích các số liệu thí nghiệm và giải thích các kết quả nghiên cứu. Học phần này nhằm cung cấp những khái niệm và các yêu cầu cơ bản của phép thống kê trong khoa học nông nghiệp và khoa học môi trường. Từ thống kê có nghĩa riêng và có nghĩa chung. Theo nghĩa riêng thống kê (statistics) là một lĩnh vực khoa học tương tự như nông học, đất, khoa học môi trường,... theo nghĩa chung nó là những tập hợp các số liệu được thu thập được. Trong thống kê bao gồm cả lý thuyết và phương pháp xử lý tính toán. Thống kê là phương pháp và công cụ dùng phân tích các tập hợp số liệu để có những quyết định tốt hơn. Phương pháp thống kê có nghĩa rất lớn trong phân tích và đánh giá số liệu và được áp dụng cho nhiều ngành khoa học khác nhau. Ví dụ các nhà khoa học trồng trọt khi giúp nông dân nâng cao năng suất cây trồng từ các thí nghiệm đồng ruộng có nhiều khác biệt với các vùng sản xuất khác nhau. Các nhà kinh tế nông nghiệp lại sử dụng để dự báo yêu cầu trong tương lai. Chương 2. PHƯƠNG PHÁP THÔNG KÊ MÔ TẢ Mục tiêu: 3
  • 4. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ - Tổ chức và tóm tắt số liệu một cách có hiệu quả - Tính toán các xu hướng tập trung, phân tán và các tham số đặc trưng mẫu (số liệu trung bình, trung vị, số trội, ... và ý nghĩa của nó). - Tính toán sự biến động của số liệu (khoảng dao động, phương sai, độ lệch chuẩn) và ý nghĩa của chúng. 2.1. Giới thiệu về thống kê mô tả Các số liệu được thu thập trong khoa học môi trường cũng như nông nghiệp nói chung và khoa học đất nói riêng khi chưa dược xử lý và phân tích sẽ rất khó đánh giá và đưa ra những quyết định đúng đắn trong việc sử dụng số liệu này. Tập hợp các số liệu quan trắc có thể có nhiều cách xử lý khác nhau. Thông thường có thể tổ chức theo thứ tự từ giá trị nhỏ nhất đến giá trị lớn nhất. Cách sắp xếp này có thể cung cấp được nhiều thông tin có ý nghĩa. Ví dụ 2.1. Một nhà khoa học nông nghiệp khi phân tích ảnh hưởng của Thiamine hydrochloride (vitamin B1) dến sinh trưởng của cây cà chua. Có 50 cây cà chua được xử lý bằng Thiamine hydrochloride được đo chiều cao một cách ngẫu nhiên, sau 14 ngày xử lý cho kết quả như sau: Bảng 2.0. Ảnh hưởng của Thiamine hydrochloride dến chiều cao cây cà chua (cm) 21,8 21,6 22,5 21,8 21,8 23,4 22,7 21,5 24,0 22,9 22,0 21,8 23,0 22,2 23,2 23,3 22,6 23,2 23,9 22,7 22,3 23,1 22,4 22,1 22,6 21,9 22,8 22,2 24,2 23,2 22,1 23,2 22,9 22,5 23,8 22,6 23,7 22,8 22,8 23,5 22.9 23,3 23,0 23,0 22,9 22,5 22,1 23,5 22,5 23,6 Giải: Bước 1: Sắp xếp các số liệu quan trắc ở bảng 2.0 theo thứ tự từ nhỏ dến lớn như ở Bảng 2.1. Các số liệu này đã cho ta biết một số thông tin cơ bản, ví dụ như độ cao của cây cà chua dao động từ 21,5 đến 24,5 cm. Sự chênh lệch giữa cây thấp nhất và 4
  • 5. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ cây cao nhất quan sát dược là 2,7 cm. Số cây có độ cao 21,5 - 22,8 cm chiếm 50% số cây quan trắc và 50% số cây cao từ 22,8 cm đến 24,2 cm. Hơn nữa sự sắp xếp này cũng chỉ rõ mức độ tập trung hoặc phân tán của các giá trị quan trắc xung quanh độ cao trung bình. Trong thí nghiệm này, cây có độ cao phổ biến ở khoảng 22,5 - 22,9 và 23,2 cm. Trong khi đó ít cây có độ cao 21,5 - 21,6 - 23,1 – 24,0 và 24,2 cm. Bảng 2.1. dãy số liệu quan trắc chiều cao cây cà chua theo thứ tự từ nhỏ đến lớn 21,5 21,6 21,8 21,8 21,8 21,9 21,9 22,0 22,1 22,1 22,1 22,2 22,2 22,3 22,4 22,5 22,5 22,5 22,5 22,6 22,6 22,6 22,8 22,8 22,9 22,9 22,9 22,9 23,0 23,0 23,0 23,1 23,2 23,2 23,2 23,2 23,3 23,3 23,4 23,5 23,5 23,6 23,7 23,8 5
  • 6. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ 22,7 22,7 22,8 23,9 24,0 24,2 Tuy nhiên với cách sắp xếp này chúng ta cũng rất khó xác định độ cao trung bình của cây cà chua, đặc biệt là khi số liệu quan trắc càng lớn. Để có cách nhìn rõ ràng hơn người ta sắp xếp dãy số liệu quan trắc theo tần suất xuất hiện của chúng và được gọi là sự phân bố tần suất. 2.2. Phân bố tần suất Trong phân bố tần suất, các số quan trắc được sắp xếp theo thứ tự lớn dần của các giá trị quan trắc bắt gặp và số lần quan trắc (Bảng2.2). Bảng 2.2 Phân bố tần suất cho số liệu ở Bảng 2.1 Chiều cao cây cà chua (cm) Tần suất 21,5 21,6 21,8 21,9 22,0 22,1 22,2 22,3 22,4 22,5 22,6 22,7 22,8 1 1 3 2 1 3 2 1 1 4 3 2 3 6
  • 7. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ 22,9 23,0 23,1 23,2 23,3 23,4 23,5 23,6 23,7 23,8 23,9 24,0 24,2 4 3 1 4 2 1 2 1 1 1 1 1 1 Cũng có thể sắp xếp các số liệu theo từng nhóm giá trị không trùng lặp nhau. Số lượng các nhóm giá trị phân chia phụ thuộc vào số liệu các quan trắc. Khi các só liệu quan trắc càng nhiều thì số các nhóm cũng càng lớn. Tuy nhiên thông thường người ta chia thành 5 đến 15 nhóm giá trị khác nhau. Theo Sturges (1926) số lượng các nhóm được xác định theo công thức sau: k= 1+3,322(lgn) [2.1] Trong đó: k = Số lượng nhóm n= số lần quan trắc Theo luật Sturges, các số liệu ở bảng 2.0 sẽ được chia thành 7 nhóm như sau được trình bày ở Bảng 2.3. Trong đó số nhóm k được xác định như sau: k = 1 + 3,322 (lg50) = 1 + 3,322 (1,6989) = 7 Như vậy với tập hợp của 50 giá trị quan trắc, các số liệu sẽ được chia thành 7 nhóm (Bảng 2.3). 7
  • 8. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Sự sắp xếp như ở Bảng 2.3 đã chỉ rõ các nhóm giá trị và tần suất của các giá trị quan trắc của chúng. Cụ thể là 5 cây cà chua có độ cao 21,5 - 21,8 và 8 cây có độ cao 21,9 - 22,2 cm, ... Các số liệu ở bảng 2.3 cũng có thể được biểu diến dưới dạng biểu đồ đa giác tần suất hoặc nối các điểm giữa giá trị các nhóm. -Tính tần suất tương dối: Tần suất tương đối là khi giá trị tần suất được biểu thị dưới dạng các tỷ lệ tương đối hay tỷ lệ phần trăm. Tần suất tương đối n Fi = Trong đó: Fi = tần suất của nhóm thứ i n = số lần quan trắc Bảng 2.3 Phân bố tần suất theo nhóm Ví dụ như ở nhóm 2 (Bảng 2.3) ta có: Tần suất tương đối của nhóm thứ hai là 8/50 = 0,16 hay biểu diễn dưới dạng phần trăm ta có: Số phần trăm là %16100 50 8 100 == xx n Fi 8
  • 9. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Từ số liệu bảng 2.1 có thể biểu diễn dưới dạng tần suất tương đối như sau (Bảng 2.4). Bảng 2.4 Tần suất tương đối và phần trăm cho số liệu ở Bảng 2.3 Nhóm chiều cao (cm) Tần suất (f) Tần suất tương đối (f/n) Phần trăm (f/n) x100 21,5-21,8 21,9-22,2 22,3-22,6 22,7-23,0 23,1-23,8 23,5-23,8 23,9-24,2 5 8 9 12 8 5 3 0,10 0,16 0,18 0,24 0,16 0,10 0,06 10 16 18 24 16 10 6 n = 50 2.3. Xác định xu hướng tập trung của các giá trị quan trắc Thông thường người ta hay nói đến giá trị trung bình. Tuy nhiên giá trị trung bình chỉ đơn thuần là giá trị ở giữa của một tập hợp nhiều giá trị quan trắc. Do vậy để đặc trưng cho xu hướng tập trung của mẫu có nhiều giá trị khác nhau được sử dụng như số trung bình cộng, số trung vị và số trội. - Số trung bình cộng (Mean): Đây là giá trị được xác định bằng thương số của tổng các giá trị quan trắc với số lần quan trắc được biểu diễn là X : ]32[ −= ∑ N X X ∑= = +++ = n i n n Xi n XXX X 1 21 ... Nếu Xi có tần suất là mi ta có 9
  • 10. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ ∑∑ == = +++ +++ = k i iii k ik kk mXm mmm XmXmXm X 1121 2211 ... ... Chú ý: ∑ ∑= = = k i n i iii XXm 1 1 và ∑= = k i i nm 1 Ví dụ 2.3: Giá thóc trung bình bán ra ở 20 trang trại được thống kê như sau, hãy xác định giá thóc trung bình được bán ra? Trang trại Giá thóc (đ/kg) Trang trại Giá thóc (đ/kg) 1 2 3 4 5 6 7 8 9 10 2000 3500 2100 3000 2400 3100 2600 2300 3000 2100 11 12 13 14 15 16 17 18 19 20 2200 2250 1750 1800 3200 2900 3100 3600 3400 3800 Giải: 2705 20 38003400...35002000 = ++++ =X (đ/kg) Như vậy giá thóc trung bình được bán ra là 2795 nghìn đồng/kg. Ý nghĩa của số trung bình cộng: + Trung bình cộng là một giá trị tổng hợp cô đọng đặc trưng tiêu biểu cho toàn bộ các giá trị quan trắc của một tập hợp. 10
  • 11. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ + Trung bình cộng là biểu diễn xu hướng tập trung của mẫu quan trắc trên một đặc trưng giống nhau. Nhưng trung bình cộng chưa biểu thị được đặc điểm thứ hai của một mẫu là xu hướng phân tán của các số liệu. . + Tổng sai số các giá trị quan trắc Xi với giá trị trung bình cộng X luôn bằng 0. Tức là: ( ) 0 1 =−∑= n i i xx - Số trung bình trọng số (Weighted mean): Trong nhiều trường hợp, tập hợp mẫu quan trắc bao gồm từ nhiều nhóm có những dặc tính khác nhau. Số trung bình chung được tính từ các số trung bình của từng nhóm riêng rẽ. Như vậy nếu tính trung bình cộng có nghĩa là ta coi sự đóng góp của các nhóm là như nhau. Để phân biệt sự tham gia không ngang nhau của các nhóm ta cần thiết phải thêm các trọng số để bảo đảm tính cân bằng khi tính số trung bình chung. Ta có: w wX wX ∑ ∑= Trong đó w = trọng số áp dụng cho giá trị X X = Gía trị quan trắc Ví dụ: Một nhà khoa học nông nghiệp xác định năng suất ngô của các giống khác nhau. Số liệu quan trắc được ghi ở Bảng 2.5. Bảng 2.5 Năng suất ngô trong thí nghiệm Giống ngô X (tạ/ha) diện tích (ha) Sản lượng A B C 130,7 144,3 140,0 64 63 66 8364,8 9090,9 9240,0 11
  • 12. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ D Tổng 120,0 51 254 6120,0 32.815,7 Từ số liệu bảng 2.5, nếu tính số trung bình chung cho 4 giống ta có giá trị trung bình X= 133,75 tạ/ha. Tuy nhiên trong trường hợp này các giống dược trồng trên những diện tích khác nhau nên cần thêm các trọng số (diện tích) cho từng từng giống ngô. Hay ta nhân cột (1) với cột (2). Theo cách tính số trung bình trọng số ta có: 49,134 254 7,32815 === ∑ ∑ w wX wX (tạ/ha) - Số trung vị (Median): Số trung vị (Med) được xác định là số đứng giữa của một dãy số liệu được sắp xếp theo trật tự giảm dần hoặc tăng dần. Trong trường hợp tỏng số quan trắc là lẻ thì trị số sẽ là số có vị trí ở giữa dãy số liệu, còn khi số quan trắc là số chẵn thì nó có giá trị là giá trị trung bình của hai quan trắc đứng giữa dãy số liệu. Số trung vị có thể có giá trị bằng hoặc khác các số trung bình và số trội tuỳ theo phân bố của chúng. Nếu phân bố của biến ngẫu nhiên đối xứng và có một số trội (Mode) thì cả 3 đặc trưng số trung bình cộng (Mean), số trung vị (Median) và số trội (Mode) là trùng nhau. Nếu phân bố đối xứng thì dùng Mean định vị là tốt nhất, trong khi nếu phân phối quá lệch thì dùng số trung vị (Median) và số trội (Mode) để định vị sẽ tốt hơn. Ý nghĩa của số trung vị: Số trung vi chia tập hợp các số liệu quan trắc thành 2 phần bằng nhau. Nghĩa là có một nửa các số liệu có giá trị nhỏ hơn và một nửa có giá trị lớn hơn số trung vị. Ví dụ 2.5: Tỷ P2O5 trong 6 loại phân bón có chứa phốt pho như sau, xác định Med của chúng. S Loại phân P2O5 12
  • 13. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ TT bón (%) 1 2 3 4 5 6 11-4,6-0 13-39-0 16-20-0 16-48-0 15-62-0 10-34-0 46 39 20 48 62 34 Giải: Trước hết ta phải sắp xếp tỷ lệ phần trăm P2O5 của các loại phân bón theo thứ tự tăng dần như sau: 20-34-39-46-48-62. Áp dụng công thức tính Med ta có: 5,42 2 4639 = + =Med Giả sử ta chỉ có 5 loại phân bón khác nhau (không có loại phân thứ 6), lúc đó ta có Med = 39 Nói tóm lại trong trường hợp dãy số liệu với n là số lẻ thì trọng số sẽ là số thứ (n+1)/2. Còn nếu n là số chẵn thì số trung vị sẽ là giá trị trung bình cộng của trị số thứ (n/2) và [(n/2)+1]. - Số trung vị trong phân bố tần suất: Khi tính số trung vị trong trường hợp phân bố tần suất hoặc gộp các số liệu thành từng lớp thì cũng làm tương tự như trường hợp trên. Số trung vị dược xác định theo công thức: ( )i f CFn LMed       − += 2 [2-7] Trong đó: L = Giá trị thấp hơn giới hạn dưới của lớp có chứa trung vị n = Tổng số các tần suất CF = Tần suất tích luỹ tính đến lớp có chứa số trung vị 13
  • 14. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ i = Khoảng cách của lớp f = Tần suất của lớp chứa số trung vị Ví dụ 2.6: Trong một lần điều tra về thu nhập của người dân, nhà kinh tế nông nghiệp đã thu được các số liệu ở Bảng 2.7. Hãy tính số trung vị về thu nhập của người dân trong các nhóm được điều tra. Bảng 2.7. Tính toán số trung vị của phân bố tần xuất Thu nhập hàng năm (triệu đồng) Số người dân (f) Tần suất tích luỹ (CF) 10,000-14,999 15,000-19,999 20,000-24,999 24,999-29,999 30.000-34,999 35,000-39,999 40,000-44,999 45,000-49,999 50,000 trở lên Tổng 5 7 10 12 14 20 16 19 17 120 5 12 22 34 48 68 84 103 120 Giải: - Bước 1: Cần xác định giá trị n/2; trong trường hợp này n/2=120/2=60. Chúng ta hy vọng là người nông dân thứ 60 sẽ đại diện cho thu nhập trung bình của cả nhóm đã được điều tra. - Bước 2: Xác định tần suất tích luỹ như kết quả ở cột CF của bảng 2.7. Các gía trị này cho biết n/2 nằm ở vị trí nào. Từ bước thứ nhất ta biết rằng số trung bình sẽ nằm ở lớp có chứa tần suất tích luỹ là 60. Tức là ở lớp có thu nhập 35,000-39,999 14
  • 15. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ triệu động/năm. Giá trị thấp hơn giới hạn dưới của lớp này là 34,9995 và cao hơn giới hạn trên là 39,9995. Theo phương pháp tính toán đã nói ở trên chúng ta sử dụng giá trị thấp hơn giới hạn dưới của lớp có chứa số trung vị. Bởi vì tần suất tích luỹ của 5 lớp đầu là 48 và 6 lớp đầu là 68. Do vậy số trung vị sẽ nằm ở vị trí nào đó giữa lớp thứ 5 và thứ 6. - Bước 3: Xác định có bao nhiêu trường hợp sẽ được cộng vào lớp thấp hơn từ lớp cao hơn dể có giá trị n/2 hoặc 60 trường hợp. Vì lớp 5 có tần suất tích luỹ là 48, nên cần có thêm 12 trường hợp nữa nằm trong lớp thứ 6. Như vậy số trung vị sẽ lấy giá trị 12/20 trong khoảng 34,9995 và 39,9995. Áp dụng công thức [2-7] ta có: ( ) ( ) 9995,37000,5 20 482120 9995,34 2 =      − +=      − += i f CFn LMed Như vậy số trung vị về thu nhập của người sản xuất là 37,9995 triệu đồng/năm. Hay có một nửa số người sản xuất có thu nhập dưới 37,9995 triệu đồng/năm và một nửa còn lại sẽ có thu nhập cao hơn. - Số trội (Mode): Số trội là một giá trị (hoặc nhiều giá trị) mà chúng có tần suất lớn vượt trội. Số trội được ký hiệu là Mod. Khác với giá trị Mean và Med, số trội được xác định trên cơ sở chuỗi số liệu hoặc biểu đồ tần suất. Nó cho biết giá trị thường gặp nhất của X trong một dãy số liệu quan trắc. Ví dụ 2.7: Một nhà nghiên cứu khi quan sát khả năng nảy mầm của loại hạt giống thu được dãy số liệu về thời gian các hạt giống nảy mầm như sau: 4 – 5 – 7 – 4 – 5 – 5 – 6 – 6 – 5 – 4 – 5 – 4 – 6 – 5 – 5 ngày. Hãy xác định Mod của tập hợp số liệu này. Giải: Từ dãy số liệu trên cho thấy giá trị 5 ngày được ghi nhận ở 7 trường hợp là nhiều nhất. Do vậy số trội của dãy số liệu này là 5 ngày. 15
  • 16. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Cần chú ý rằng có nhiều dãy số liệu không có số trội. Ví dụ như 4 giá trị quan trắc về ngày nảy mầm của hạt là 4 - 5 - 6 - 7 ngày. Ngược lại cũng có dãy số liệu có thể có hai hay nhiều số trội. Ví dụ dãy quan trắc sự nảy mầm của hạt vào các ngày 4 - 4 - 4 – 5 - 6 - 7 - 5 - 5 - 6 - 4 - 5. Ta có hai số trội là 4 ngày và 5 ngày. Với sự phân bố tần suất, chẳng hạn như ở Bảng 2.7, số trội là xấp xỉ với lớp trội. Lớp trội cũng là lớp có tần suất lớn nhất. Để xác định số trội trong trường hợp này cần giả thiết rằng tần suất có phân bố đồng nhất ở tất cả các lớp. Trong ví dụ này, lớp thứ 6 có tần suất 20 là lớp trội. Do vậy số trội được tính như sau: 4995,37 2 999,4 000,35 =+ Khi phân bố tần suất không thuần nhất ở các lớp, ta sẽ tính số trội theo công thức: ( )i dd d LMod       + += 21 1 Trong đó L: Giá trị thấp hơn giới hạn dưới của của lớp trội d1: Sự khác nhau giữa tần suất của lớp trội với tần suất của lớp trước nó d2: Sự khác nhau giữa tần suất của lớp trội với lớp tiếp theo i: Khoảng cách của lớp trội Với ví dụ ở Bảng 2.7, ta có: ( )i dd d LMod       + += 21 1 = ( ) 9995,37000,5 )1620()1420( 1420 9995,34 =      −+− − + Giá trị trung bình (Mean) được dùng rất phổ biến biểu thị kích thước trung bình của tập hợp các số liệu quan trắc khi không có giá trị vượt trội đặc biệt. Trong khi đó số trung vị (Median) sẽ không bị ảnh hưởng bởi các giá trị vượt trội. Tuy nhiên số trung vị sẽ không phản ánh đúng kích thước trung bình của tập hợp mẫu khi có vấn đề trong lấy mẫu. Trong trường hợp này số trung bình cộng sẽ có ý nghĩa 16
  • 17. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ tốt hơn. Số trội là đại diện cho kích thước trung bình của tập hợp mẫu vì nó không bị ảnh hưởng bởi dạng đường cong phân bố. Tuy nhiên hạn chế của số trội là nó không có sự tính toán chính xác. Hơn nữa do điều kiện lấy mẫu, số trội là ít có tính xác thực hơn. 2.4. Xác định sự biến động hay độ phân tán mẫu Mức độ biến động hay độ phân tán mẫu là khoảng giá trị sai khác của các giá trị quan trắc so với giá trị trung bình. Nhìn chung khoảng cách từ gía trị quan trắc so với giá trị trung bình càng lớn thì mức độ phân tán của mẫu cũng càng lớn. Để biểu diễn mức độ phân tán của mẫu, người ta thường dùng các giá trị độ biến thiên, độ lệch trung bình, phương sai, độ lệch chuẩn. -Khoảng biến thiên (Range): Là sự sai khác giữa giá trị nhỏ nhất và lớn nhất trong dãy số liệu: R= X max – X min [2-9] Ví dụ 2.8: Trong dãy số liệu là 4,2-6,7-3,4-2,3-7,9 ta có khoảng dao động là: R= 7,9-2,3=5,6 Việc xác định khoảng dao động là đơn giản, tuy nhiên nó chỉ đề cập đến 2 giá trị trong dãy số liệu nên không phản ánh chính xác độ phân tán thực của mẫu. - Độ lệch trung bình (Average deviation): Độ lệch trung bình được xác định là sự sai khác trung bình của các giá trị quan trắc với giá trị trung bình cộng. Khi tính toán, tổng của các độ lệch này luôn luôn bằng 0. ( )∑ =− 0XXi Từ số liệu của ví dụ 2.8 ta có: ( ) ( ) ( ) ( ) ( ) ( )9,49,79,43,29,44,39,47,69,42,4 −+−+−+−+−=−∑ XXi 00,36,25,18,17,0 =+−−+−= 17
  • 18. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Trong xác định độ lệch trung bình, chúng ta cần thay đổi cách tính để được một số có ý nghĩa bằng cách không chú ý đến các dấu số học. Khi đó ta lấy tổng các gía trị tuyệt đối của các độ lệch rồi chia cho n sẽ được độ lệch trung bình: n xx AD ∑ − = [2-10] Trong đó AD = độ lệch trung bình x = Giá trị của mỗi lần quan trắc X = Số trung bình cộng n = Số lần quan trắc Ví dụ 2.9: Lấy số liệu từ ví dụ 2.8 ta có 92,1 5 0,36,25,18,17 5 9,49,7...9,47,69,42,4 = ++++ = −++−+− =AD Như vậy giá trị độ lệch trung bình của mẫu là 1,92. - Phương sai (Variance): Phương sai của một mẫu là trung bình độ lệch bình phương của các giá trị quan trắc so với giá trị trung bình. Phương sai của biến ngẫu nhiên là một số không âm dùng để chỉ mức độ phân tán của biến ngẫu nhiên xung quanh tâm của nó. Công thức tính phương sai của một tổng thể như sau: ( ) 2 2 N Xi∑ − = µ σ Trong đó 2 σ = Phương sai của một tổng thể x = Giá trị quan trắc µ = Giá trị trung bình của tổng thể N= Số quan trắc trong tổng thể Đối với một mẫu, thì phương sai được tính theo công thức: 18
  • 19. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ ( )2 2 1− − = ∑ n xx S i Trong đó: S2 = Phương sai mẫu x= Giá trị quan trắc x = Số trung bình mẫu n= Số quan trắc trong mẫu Ví dụ 2.10: Một nhà khoa học khi nghiên cứu đã cho thấy ô nhiễm dầu ở đại dương do sự cố tràn dầu đã có ảnh hưởng đến sự sinh trưởng của các vi khuẩn. Nghiên cứu trên 20 mẫu nước biển cho thấy kết quả số vi khuẩn trong 100 ml nước biển như sau, hãy xác định phương sai của quần thể vi sinh vật này. 32 56 72 45 52 74 53 42 58 61 59 40 36 76 55 75 62 48 35 39 Giải: 95,53 20 1079 === ∑ N X µ Ta có: ( ) 0,189 20 9,3780 2 2 == − = ∑ N X µ σ X µ−X ( )2 µ−X 32 65 72 -21,95 11,05 18,05 48,18 122,1 325,8 19
  • 20. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ 45 52 74 53 42 58 61 59 40 36 76 55 75 62 48 35 39 1079 -8,95 -1,95 20,05 -0,95 -11,95 4,05 7,05 5,05 -13,95 -17,95 22,05 1,05 21,05 8,05 -5,95 -18,95 -14,95 0,0 80,1 3,8 402,0 0,9 142,8 16,4 49,7 25,5 191,6 322,2 486,2 1,1 443,1 64,8 35,4 359,1 223,5 3780,9 Giá trị phương sai chỉ có nghĩa để so sánh độ phân tán mẫu của 2 hoặc nhiều mẫu nghiên cứu. Trong một mẫu giá trị phương sai không có ý nghĩa so sánh vì số 189 không phải là số lượng vi khuẩn thực tế mà là số bình phương. Do vậy để sử dụng chúng người ta phải chuyển phương sai thành độ lệch chuẩn bằng cách khai căn bậc 2 giá trị phương sai. 20
  • 21. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ 5,13189 ==σ (vi khuẩn) Vì số vi khuẩn phải là số nguyên nên ta làm tròn thảnh 14 con vi khuẩn. Cũng có thể tính phương sai bằng phương pháp ngắn gọn hơn theo công thức sau: 22 2         −= ∑∑ N X N X σ Với ví dụ 2.10 ta có: 0,189 20 39...6532 20 39...6532 2222 2 =      +++ − +++ =σ - Độ lệch chuẩn (Standard deviation): Độ lệch chuẩn là giá trị căn bậc 2 của phương sai. Nó có ý nghĩa lớn thể hiện sự phân tán của mẫu và được dùng để so sánh sự phân tán của các mẫu khác nhau. Khi mẫu có độ lệch chuẩn càng lớn chứng tỏ mức độ phân tán của mẫu cũng càng lớn. Công thức để tính độ lệch chuẩn cho một tổng thể như sau: ( ) N X∑ − = 2 µ σ [2-14] Hoặc ngắn gọn hơn, có thể áp dụng công thức: 22         −= ∑∑ N X N X σ [2-15] Đối với một mẫu ta áp dụng công thức sau: ( ) 1 2 − − = ∑ n XX S [2-16] Hoặc tính ngắn gọn theo công thức: ( ) 1 2 2 − − = ∑ ∑ n n X X S [2-17] 21
  • 22. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Cần chú ý rằng độ lệch chuẩn của mẫu sẽ lấy mẫu số là n-1. Theo Mason (1982) nếu sử dụng n thay cho n-1 thì độ lệch chuẩn sẽ bị nhầm lẫn với cách tính của tổng thể, đặc biệt là khi kích thước của mẫu nhỏ. Ví dụ 2.11: Doanh số bán hàng của một nhóm các công ty máy nông nghiệp được chọn một cách ngẫu nhiên là 24-32-28-22-20-26-28 và 20 triệu đồng/tháng. Tính độ lệch chuẩn của mẫu. Giải: 25 8 200 === ∑ n X X ( ) 28,428,18 18 128 1 2 == − = − − = ∑ n XX S Theo cách rút gọn ta có: X X2 24 576 22
  • 23. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ 32 28 22 20 26 28 20 200 1024 784 484 400 676 784 400 5128 ( ) ( ) 28,4 7 128 7 50005128 18 8 200 5128 1 22 2 == − = − − = − − = ∑ ∑ n n X X S Mối quan hệ giữa giá trị trung bình (Mean) và độ lệch chuẩn được xác định theo định lý Chebyshev: "Với bất kỳ một dãy số liệu quan trắc nào đó, ít nhất sẽ có [1-(1/k2 )] các giá trị quan trắc nằm trong phạm vi k lần độ lệch chuẩn của dãy số liệu đó xung quanh giá trị trung bình". Trên cơ sở định lý này, sẽ có ít nhất 75% các giá trị trong dãy số liệu quan trắc nằm trong phạm vi 2 lần độ lệch chuẩn ở phía trên và dưới giá trị trung bình. Ít nhất 88,9% nằm trong phạm vi 3 lần độ lệch chuẩn xung quanh giá trị trung bình, và ít nhất 96% nằm trong phạm vi 5 lần độ lệch chuẩn xung quanh giá trị trung bình. Theo công thức của Chebyshev ta có các giá trị phần trăm tương ứng với hai ba và năm lần độ lệch chuẩn như sau: Với khoảng 75% ta có: 75,0 4 1 1 2 1 1 1 1 22 =−=−=− k Với khoảng 88,9% ta có: 88,0 9 1 1 3 1 1 1 1 22 =−=−=− k 23
  • 24. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Với khoảng 96% ta có: 96,0 25 1 1 5 1 1 1 1 22 =−=−=− k Áp dụng định lý Chebyshev cho ví dụ 2.11, với giá trị trung bình là 25, độ lệch chuẩn là 4,28 ta có ít nhất 75% số các giá trị quan trắc nằm trong khoảng (25 - 4,28 x 2) = 16,44; và (25 + 4,28 x 2) =33,56. It nhất 88,9% các giá trị nằm trong phạm vi (25-4,28x3)=12,16 và (25+4,28x3)=37,84; và 96% giá trị thì nằm trong phạm vi (25 - 4,28 x 5) = 3,60 và (25 + 4,28 x 5) = 46,40. - Độ lệch chuẩn của các nhóm số liệu: Tính toán độ lệch chuẩn trong trường hợp của các nhóm số liệu hoặc phân bố tần suất, chúng ta áp dụng công thức sau: ( ) 1 2 2 − − = ∑ ∑ n n fx fx S [2-18] Trong đó: x = Điểm giữa của lớp f = Tần xuất của lớp n = Số lượng quan trắc Ví dụ 2.12: Để xây dựng kênh dẫn nước tưới cho đồng ruộng, một cơ sở xây dựng đã nhận sự tài trợ của nhiều tổ chức và cá nhân khác nhau. Người ta đã thống kê được mức đóng góp như sau, tính độ chênh lệch chuẩn cho các nhóm số liệu đó. Giải: Xây dựng bảng số liệu (Bảng 2.8) sau đó áp dụng công thức [2-18] để tính độ lệch chuẩn. Mức đóng góp (triệu đồng) Số đơn vị tài trợ 0,00 - < 5,00 30 5,00 - < 10,00 35 10,00- < 15,00 42 24
  • 25. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ 15,00- < 20,00 10 20,00- < 25,00 3 25,00- < 30,00 5 30,00- < 35,00 7 Bảng 2.8. Tính các gía trị cho các nhóm số liệu (1) Mức đóng góp (triệu đồng) (2) Tần suất (f) (3) Điểm giữa (x) (4) (fx) (5) fx.x (fx2 ) 0,00 - < 5,00 30 2,5 75,00 187,50 5,00 - < 10,00 35 7,5 262,50 1968,75 10,00- < 15,00 42 12,5 525,00 6526,50 15,00- < 20,00 10 17,5 175,00 3062,50 20,00- < 25,00 3 22,5 57,50 1518,75 25,00- < 30,00 5 27,5 137,50 3781,25 30,00- < 35,00 7 32,5 227,50 7393,75 Cộng 132 1.470,00 24.475,0 0 ( ) ( ) 87,787,61 1132 132 1470 24475 1 22 2 == − − = − − = ∑ ∑ n n fx fx S Phần 2. THỐNG KÊ SUY LUẬN TRONG KHOA HỌC NÔNG NGHIỆP VÀ MÔI TRƯỜNG 25
  • 26. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ CHƯƠNG 3. LÝ THUYẾT XÁC SUẤT 3.1. Giới thiệu Ở chương trước đã đề cập đến phương pháp thống kê mô tả. Tuy nhiên phương pháp này không cho phép suy luận các giá trị của tổng thể từ các đặc trưng mẫu. Do vậy ta phải sử dụng phương pháp thống kê suy luận. Quan điểm lí thuyết xác suât có ý nghĩa quan trọng để giải thích cho phương pháp thống kê suy luận. Trong thực tế, các nhà nghiên cứu hoặc quản lí thường phải đối mặt với việc phải quyết định các vấn đề mà được dựa trên những thông tin và các số liệu hạn chế. Vì để có được số lượng đủ lớn, các thông tin hay số liệu thường đòi hỏi chi phí lớn về kinh phí cũng như thời gian. Lí thuyết sác xuất có liên quan đến quan niệm và sự xác định các sự kiện không chắc chắn. Các quyết định được đưa ra bởi các nhà nghiên cứu hoặc quản lí với sự hạn chế thông tin thường có chứa đựng các nguy cơ có liên quan đến các sự kiện không chắc chắn. Để phân tích các nguy cơ này, các nhà quản lí và nghiên cứu phải dựa vào lí thuyết xác suất. Trong phần này, chúng ta chỉ đề cập đến khái niệm xác suất như một phương pháp làm tăng mức độ tin tưởng của một quyết định nào đó trong kết quả của xuất hiện của một sự kiện hoặc thí nghiệm. 3.2 Các khái niệm và phương pháp xác định xác suất - Sự kiện (hay còn gọi là biến cố- event): Một sự kiện được xác định là kết quả không chắc chắn của một thí nghiệm, hoặc một hoặc nhiều kết quả có thể của một quan trắc hay một thí nghiệm nào đó. Hay nói cách khác, sự kiện là kết quả của 1 phép thử. Mỗi sự kiện tương ứng với một tập hợp kí hiệu là A, B, ... Ví dụ có 5 hạt thóc giống đem thí nghiệm về sự nảy mầm của chúng. Kết qủa cả 5 hạt giống đều nảy mầm là một khả năng có thể xuất hiện, đó là một sự kiện. Khi nói đến sự kiện ta cần chú ý có sự kiện là tất yếu (Ω), nó nhất định sẽ xảy ra khi tiến hành phép thử. Có sự kiện là không thể (ø), nghĩa là nó không thể xảy ra khi tiến 26
  • 27. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ hành phép thử. Có sự kiện là ngẫu nhiên (A, B...), nghĩa là nó có thể xảy ra hoặc không xảy ra khi tiến hành phép thử. Có sự kiện là tất nhiên (A, B, ...), nghĩa là nó tất yếu sẽ xảy ra khi tiến hành phép thử. - Không gian mẫu (sample space): Bao gồm tất cả các sự kiện có thể xuất hiện trong thí nghiệm hoặc quan trắc. Ví dụ, khi gieo 5 hạt giống thì có 6 khả năng xảy ra là 0, 1, 2, 3, 4, 5 hạt sẽ nảy mầm. Ta gọi đó là không gian mẫu. - Tổng của 2 sự kiện: Tổng của các sự kiện (∪) được xác định là toàn bộ các sự kiện xảy ra của 1 sự kiện có chứa tất cả các điểm mẫu thuộc A hoặc B hoặc cả hai, và được kí hiệu là A ∪ B Hình 3.1 cho thấy tổng các sự kiện A và B và được gọi là sơ đồ Venn (J. Venn, 1834 - 1888). Hình chữ nhật biểu diễn không gian mẫu (sample space) nó chứa các điểm mẫu. Tổng của tất cả các điểm mẫu là không gian mẫu. Hai vòng tròn là đại diện cho các sự kiện A và B. Trên thực tế vùng chồng lấn là diện tích chung của cả A và B. Để có xác suất của sự kiện A và B chúng ta phải trừ đi 1 vùng chồng lấn từ tổng xác suất của sự kiện A và B. Hình 3.1. Tổng các sự kiện A và B khi các sự kiện là loại trừ nhau và khi chúng không loại trừ nhau - Sự giao nhau của các sự kiện: Sự giao nhau của 2 sự kiện được khái niệm là một sự kiện mà có chứa các điểm mẫu thuộc cả A và B. Sự giao nhau của hai sự 27 A B Không gian mẫu (a) Không gian mẫu (b) Tổng A và B hoặc AB A B
  • 28. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ kiện A và B được ký hiệu là A∩B. Hình 3.1, phần giao nhau giữa 2 sự kiện A và B chính là diện tích chồng lấn của 2 hình tròn A Và B. - Các qui tắc cơ bản của xác suất: Tính toán xác suất được dựa trên các qui tắc của phép cộng hoặc nhân. Khi ta có 2 sự kiện, nếu muốn biết xác suất mà ít nhất sẽ có một sự kiện xảy ra, ta áp dụng qui tắc cộng. Một cách khác nếu muốn biết xác suất mà sự kiện A hoặc B, hoặc cả 2 xuất hiện, ta chỉ đơn thuần là cộng cả 2 xác suất sơ cấp của chúng. Ngược lại, khi muốn tìm xác suất của 2 (hoặc nhiều hơn các sự kiện) xuất hiện đồng thời ta phải áp dụng qui tắc nhân xác suất. Khi cộng các xác suất, trước hết cần phải biết các sự kiện là độc lập hoặc giao nhau. Nếu sự xuất hiện của một sự kiện mà nó loại trừ sự xuất hiện của sự kiện khác, ta có 2 sự kiện là loại trừ nhau. Ví dụ, nếu một nhà chọn giống cây trồng tiến hành một thí nghiệm riêng rẽ về sự chuyển hoá chất diệp lục (chlorophyl) để có giống cây màu vàng thay vì màu xanh vốn có, thường gặp phải sự kiện loại trừ nhau như Hình 3.1. Phương trình theo qui tắc cộng xác suất như sau: P(A hoặc B)=P(A)+P(B) [3-1] hoặc P(A ∪ B) = P(A)+P(B) [3-2] Trong trường hợp này cả A và B sẽ xuất hiện ngang nhau trong tổng xác suất của A Và B. Ví dụ, nếu ta tung con súc sắc thì xác suất xuất hiện mặt 2 hoặc 3 chấm sẽ là: P(2 hoặc 3) = P(2) + P(3) =1/6+1/6 = 2/6 = 0,33 Tình huống mà 2 sự kiện là không loại trừ nhau chính là hiệu của diện tích (phần gạch chéo giao nhau) ở hình 3.1. Đây là vùng mà cả 2 sự kiện đều có khả năng xuất hiện. Vì vậy qui tắc cộng xác suất sẽ là: P(A hoặc B) = P(A) + P(B) - P(A và B) [3-3] 28
  • 29. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Ví dụ: Nếu ta rút một quân bài từ tập tú lơ khơ, xác suất để rút được quân K hoặc quân cơ sẽ là: P(K hoặc cơ) =P(K) + P(cơ) - P(K và cơ) = 4/52+13/52-1/52 = 16/52 = 0,31 Nếu ra muốn xác định xác suất của 2 (hoặc vài) sự kiện cùng xuất hiện đồng thời ta áp dụng qui tắc nhân. Qui tắc nhân được áp dụng khác nhau phụ thuộc vào các sự kiện chúng là độc lập hay phụ thuộc nhau. Hai sự kiện là độc lập nhau nếu sự xuất hiện của sự kiện này không ảnh hưởng đến sự xuất hiện của các sự kiện kia. Để mô tả khái niệm này, giả sử ta có một cặp xúc sắc, trong đó 1 con xúc sắc màu trắng và một con xúc sắc màu đen. Sự xuất hiện mặt 3 chấm của con xúc sắc màu trắng là hoàn toàn độc lập với sự xuất hiện mặt 3 chấm của con xúc sắc mầu đen. Ta ký hiệu xác suất của các sự kiện độc lập như sau: P(A và B) = P(A) x P(B) [3-4] hoặc P(A∩ B) = P(A) x P(B) [3-5] Sử dụng phương trình [3-4] để xác định xác suất của mặt 3 chấm của cặp xúc sắc này là: P(3 trên trắng và 3 trên đen) = P(3 trên trắng) x P(3 trên đen) = 1/6 x 1/6 = 1/36 = 0,028 Khi 2 sự kiện (A và B) phụ thuộc nhau thì xác suất xuất hiện của sự kiện này sẽ phụ thuộc hoặc là điều kiện cho sự xuất hiện hay không xuất hiện của sự kiện khác. Ký hiệu | được sử dụng để chỉ xác suất điều kiện như trình bày trên. Ví dụ, P(A|B) nghĩa là xác xuất của sự kiện A là điều kiện cho sự xuất hiện của sự kiện B. Qui tắc xác suất trong xác suất có điều kiện được biểu diễn như sau: P(A∩ B) = P(A) x P(A|B) [3-6] 29
  • 30. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ hoặc P(A∩ B) = P(B) x P(B|A) [3-7] Ở phương trình [3-6]. sự xuất hiện đồng thời của A và B là ngang nhau trong tích số xác suất của sự kiện A, và xác suất của A là điều kiện cho sự xuất hiện của B. Ta có thể sử dụng phương trình [3-6] hoặc [3-7] để tính P(A|B). Ví dụ 3.1: Trong buổi thuyết trình trước một nhóm các đại lý, phó chủ tịch công ty hoá chất nông nghiệp chỉ ra rằng, với kinh nghiệm trước đây cho thấy xác suất bán hàng cho một nông trại ở lần chào hàng thứ 2 là 0,30. Các ghi nhận được cho thấy có 52% các lần bán hàng như vậy đạt trên 200 nghìn đồng. Hãy xác định xác suất mà các đại lý bán hàng sẽ bán được trên 200 nghìn đồng? Giải: Trước khi áp dụng phương trình [3-6] hoặc [3-7] để tìm xác suất, ta đặt vấn đề như sau: P(A)= xác suất mà một lần bán hàng tiến hành P(A| B)= xác suất mà một lần bán hàng được trên 200 nghìn đồng Xác suất các đại lý bán hàng tiến hành với 1 lần bán được trên 200 nghìn đồng là: P(A và B)=P(A)xP(A|B) = (0,30)(0,52) = 0,16 Qui tắc nhân xác suất có thể được áp dụng với bất kỳ số lượng các sự kiện. Với trường hợp nhiều hơn 2 sự kiện ta có công thức sau: P(A, và B, ..., và N)=P(A)P(B|A)P(C|B và A), ..., P(N|N-1) và, ..., A) [3-8] Ví dụ 3.2: Một nhà khoa học chăn nuôi thử nghiệm 3 loại thức ăn khác nhau nhằm tăng cao khả năng tăng trọng của bò. Nghiên cứu được tiến hành ở 10 con bò, trong đó 5 30
  • 31. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ con là giống Angus, 3 con giống Brahman và 2 con giống Hereford. Giả sử rằng có 3 con được chọn ngẫu nhiên từ danh sách đánh số từ 1 đến 10. Mỗi lần chọn 1 con, nên sau mỗi lần chọn mẫu, số con bò còn lại sẽ có các cơ hội ngang nhau để dược lựa chọn tiếp. Tìm xác xuất mà cả 3 con bò được lựa chọn đề là giống Angus. Giải: Giả sử rằng các sự kiện của lần chọn thứ nhất, thứ hai và thứ ba cho giống Angus là A, B, C ta có: P(A, B và C) = P(A)P(B|A)P(C|B và A) = (5/10)(4/9)(3/8) = 0,08 Vì trong 10 con bò thì có 5 con Angus, nên xác suất của lần chọn thứ nhất P(A)=5/10. Lúc này ta còn lại 9 con, vì vậy xác suất điều kiện P(B|A) =4/9. Tương tự như vậy, sau lần chọn mẫu thứ hai ta chỉ còn 8 con bò để lựa chọn và trong đó có thể sẽ có 3 con là Angus. Do vậy câu trả lời là xác suất cho lựa chọn được cả 3 con Angus chỉ là 0,08. Từ ví dụ này có 2 điều quan trọng cần lưu ý là: (1) sự xuất hiện đồng thời cả 3 giống A, B và C là như nhau. Nghiã là qui tắc nhân sẽ được áp dụng để tính toán. (2) nếu ta lấy ngẫu nhiên theo cách thay thế, xác suất cho mỗi sự kiện sẽ được duy trì như nhau. Với ví dụ trên nếu ta lấy mẫu thay thế (lấy mẫu lặp) ta có khả năng xuất hiện đồng thời cho các sự kiện A, B và C là: P(A, B và C)=(5/10)(5/10)(5/10) =0,13 Tỷ số được giữ nguyên vì sau mỗi lần lấy mẫu chúng ta lại đưa trả lại để cho số bò của mỗi lần lấy mẫu đều là 10. Một cách nhìn khác trong mối quan hệ giữa việc lấy mẫu và bản chất của các sự kiện là lấy mẫu không lặp lại, cũng tương tự như các sự kiện phụ thuộc trong xác suất. Lấy mẫu trong trường hợp này cũng tương tự như các sự kiện độc lập. - Xác suất điều kiện: 31
  • 32. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Xác suất điều kiện là xác suất xuất hiện của một sự kiện này sẽ là điều kiện cho sự xuất hiện của một sự kiện khác. Phương trình [3-9] là cách xác định xác suất điều kiện của 2 sự kiện A và B: P(A|B = P(A∩ B)/P(B) [3-9] hoặc P(B|A)=P(A∩ B)/P(A) [3-10] Trong đó P(A) và P(B) là khác không Ví dụ 3.3: Một nhà khoa học làm thí nghiệm kiểm tra hiệu quả của một loại vắc xin phòng bệnh cho gà. Hãy cho biết xác suất bắt gặp con gà đã được tiêm chủng mà vẫn bị mắc bệnh khi lựa chọn một cách ngẫu nhiên. Dựa vào số liệu quan trắc sau đây: Kết quả Thí nghiệm Tiêm vắc xin Đối chứng Tống số Bị nhiễm bệnh Không bị nhiễm bệnh Tổng 22 78 100 44 56 100 66 134 200 Giải Giả sử rằng : I = Sự kiện gà bị nhiễm bệnh H= Sự kiện gà không bị nhiễm bệnh V= Sự kiện gà được tiêm vắc xin C = Sự kiện gà không được tiêm vắc xin 32
  • 33. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Vì mỗi ô trong bảng số liệu là kết quả của 2 sự kiện, ta có thể tính xác suất đồng thời của chúng như sau: P(I∩V) = 22/200 =0,11 P(I∩C) = 44/200 = 0,22 P(H∩V) = 78/200 = 0,39 P(H∩C) = 56/200 = 0,28 Bảng 3.1 Biểu diễn xác suất đồng thời và xác suất biên (marginal probability) cho ví dụ này. Bảng 3.1. Xác suất đồng thời và xác suất biên cho gà được tiêm vắc xin và đối chứng Tiêm vắc xin Đối chứng Xác suất biên Bị nhiễm bệnh Không bị nhiễm bệnh Xác xuất biên 0,11 0,39 0,05 0,22 0,28 0,30 0,33 0,67 1,00 Xác suất biên là tổng của các xác suất đồng thời của mỗi sự kiện riêng rẽ. Xác suất biên 0,33 và 0,67 cho biết 33% số gà bị nhiễm bệnh và 67% là không bị nhiễm bệnh. Xác suất biên 0,50 và 0,50 cho biết 50% được tiêm vắc xin và 50% là không được tiêm vắc xin. Để tính xác suất biên mà gà bị nhiễm bệnh trong số đã được tiêm vắc xin, ta có: P(I|V) = P(I∩V)/P(V) [3-11] 33
  • 34. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Xác suất đồng thời, P(I∩V) từ Bảng 3.1 là 0,11. Cần chú ý rằng 0,50 là xác suất biên mà gà bị nhiễm bệnh trong số đã được tiêm vắc xin P(I) = 0,50. Với những thông tin này, xác suất điều kiện sẽ là: P(I |V) = 0,11/0,50 = 0,22 Xác suất điều kiện cho biết số gà dược tiêm vắc xin sẽ có 22% khả năng bị nhiễm bệnh. - Sơ đồ cây (Tree diagram): Chúng ta có thể biểu diễn không gian mẫu như đồ thị hình chữ nhật được trình bày ở trên, hoặc dưới dạng hình cây. Đồ thị hình cây cũng được sử dụng tương tự như đồ thị hình chữ nhật. Để xây dựng đồ thị hình cây, trước hết ta vẽ các điểm hoặc hình vuông nhỏ đại diện cho thân cây như Hình 3.3. Sự xảy ra của mỗi mẫu quan trắc được đại diện cho các nhánh. Hình 3.3. Sơ đồ hình cây cho 300 người dân với các nghề khác nhau muốn nghỉ hưu ở tuổỉ 60 Ví dụ 3.4: 34 Quản lý (M) 0,33 Sản xuất (P) 0,67 Nghỉ hưu (R) 0,23 Không nghỉ hưu (NR) 0,10 Nghỉ hưu (R) 0,07 Không nghỉ hưu (NR) 0,50
  • 35. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Một nghiên cứu mới đây cho thấy người nông dân với các nghề khác nhau không muốn nghỉ hưu trước tuổi 60. Một nhà kinh tế nông nghiệp làm một cuộc điều tra giữa những người làm công tác quản lý và các nhà sản xuất để xác định kế hoạch cho họ sau tuổi 60. Kết qủa thu được như sau, hãy vẽ sơ đồ cây và xác định xác suất xuất hiện đồng thời. Nghề nghiệp Kế hoạch sau tuổi 60 Nghỉ hưu (R) Không nghỉ hưu (NR) Tổng M : Quản lý P : Sản xuất 70 20 30 180 100 200 300 Giải: Đối với vấn đề này, có 2 nhánh chính được xây dựng từ thân cây (tree trunk). Một nhánh đại diện cho những người quản lý và nhánh kia cho những người sản xuất. Xác suất của mỗi nhánh cây là 0,33 và 0,67 như được mô tả ở Hình 3.3. Nếu dấu hiệu M, P, R và NR tương ứng cho các nhà quản lý, sản xuất, nghỉ hưu và không nghỉ hưu. Như vậy Xác suất đồng thời của nhà quản lý muốn nghỉ hưu ở tuổi 60 sẽ là P(M và R). Tương tự như vậy xác suất đồng thời của người sản xuất và tuổi nghỉ hưu 60 sẽ là P(P và R). Bảng 3.2. Xác suất đồng thời của 300 cá nhân thích nghỉ hưu liên quan đến nghề nghiệp khác nhau Nghề nghiệp Nghỉ hưu (R) Không nghỉ hưu (NR) Xác suất giới hạn M : Quản lý P : Sản xuất Xác suất giới hạn 0,23 0,07 0,30 0,10 0,60 0,70 0,33 0,67 1,00 35
  • 36. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Xác suất đồng thời này khi lựa chọn ngẫu nhiên các cá nhân làm nghề quản lý muốn nghỉ hưu ở tuổi 60 sẽ là: P(M và R) = 70/300 = 0,23 Tương tự xác suất đồng thời giữa người sản xuất và tuổi nghỉ hưu (60 tuổi) là: P(P và R) =20/300 = 0,07 Các xác suất đồng thời cho các yếu tố khác được tính toán theo tần suất tương đối và giới thiệu ở Bảng 3.2. 3.3. Nguyên lý tính toán Trong một số thí nghiệm, không gian mẫu có thể là rất lớn, các kết quả thu được là rất phức tạp và khó xác định. Trong trường hợp như vậy chúng ta phải sử dụng một số kỹ thuật tính toán nhất định. Nguyên tắc tính toán này chỉ được sử dụng trong trường hợp số các sự kiện nhiều hơn 2. Dạng đơn giản nhất, nguyên lý tính toán được phát biểu như sau: Nếu sự kiện thứ nhất có thể xảy ra với i các cách khác nhau, và sự kiện thứ 2 có thể xảy ra với j cách khác nhau thì tổng các khả năng xuất hiện sẽ là tích số của i và j. Nghĩa là: Tổng số khả năng xuất hiện là i . j Ví dụ, nếu có 2 cách vận chuyển lúa từ trang trại đến nhà kho và 3 cách vận chuyến chúng từ kho đến người bán buôn, và 4 cách vận chuyển từ người bán buôn đến người bán lẻ. Như vậy ta có tổng số 2x3x4=24 cách vận chuyển lúa từ trang trại đến người bán lẻ. Nguyên lý phép nhân (multiplication), hoán vị (permutation) và sự tổ hợp (combination) là các kỹ thuật tính được dùng để xác định các khả năng của các con đường khác nhau cho vận chuyển lúa. - Nguyên lý phép nhân (multiplication principle): 36
  • 37. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Khi trật tự là quan trọng cho sự xảy ra của một thí nghiệm (chẳng hạn như tung đồng xu, HT=TH, trong đó H=mặt ngửa-heads và T=mặt sấp), nguyên lý phép nhân sẽ được sử dụng để tính tổng các khả năng xảy ra. Công thức lựa chọn bội số từ một thí nghiệm là: nMr = nr [3-12] Trong đó nMr là số các lựa chọn bối số của m sự kiện trong r lần. Sự lựa chọn bội số có thể là tổ hợp của các tính chất khác nhau trong một ví dụ. Ví dụ 3.5: Một nhà làm vườn tạo giống mới bằng nhân giống cây trồng mong muốn phát triển giống cây có hoa vàng, hoa to và cuống dài. Giả sử kí hiệu hoa vàng là (Y), hoa to là L và cuống dài là S. Xác định xem có bao nhiêu cách lựa chọn bội số từ ví dụ này trong tổ hợp chập hai: Giải: 3M2 = 32 = 9 YY LY SY YL LL SL YS LS SS -Phép hoán vị (permutation): Nếu các sự kiện xáy ra không lặp lại nhưng theo trật tự ta có thể áp dụng phép hoán vị. Phép hoán vị được định nghĩa là một sự sắp xếp một tập hợp các tổ hợp trong đó ta có lần lượt cái thứ nhất, thứ hai và thứ n. Ta có thể áp dụng nguyên tắc này để tính toán các cách sắp xếp. Tuy nhiên để dễ dàng hơn ta áp dụng công thức : 37
  • 38. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Trong đó nPr là số lần hoán vị của n phần tử (Objects) dược lấy mỗi lần là r phần tử. Ký hiệu ! là giai thừa (factorial) được dùng cả trong phép hoán vị và tổ hợp. Giai thừa của n (n !) nghĩa là tích của n(n-1)(n-2)(n-3), ..., [n-(n-1)]. Ví dụ 4 ! ta có: 4 ! = 4(4-1)(4-2)[4-(4-1)] = 4x3x2x1 = 24 Với ví dụ 3.5 trong trường hợp hoán vị ta đặt vấn đề là sẽ có bao nhiêu cách hoán vị các chữ cái Y, L và S, nếu mỗi lần lấy 2 chữ. Sử dụng phương trình [3-13] ta có: - Tổ hợp : Khi một trật tự là không quan trọng, ta sử dụng nguyên tắc tổ hợp (Combination principle) trong nhóm các phần tử (grouping objects). Công thức tính tổ hợp là (ta gọi tổ hợp chập r của n). Cũng xét với ví dụ 3.5, ta xác định có bao nhiêu cách tổ hợp của các chữ cái Y, S và L, nếu mỗi lần ta lấy ra 2 chữ cái. 38 ]133[ )!( ! − − = rn n prn 6 1 )1.2.3( !1 !3 )!23( !3 )!23( !3 23 === − = − =P ]143[ )!(! ! − − = rnr n Crn )!(! ! rnr n Crn − = 3 !2 !2.3 )!23(!2 !3 23 == − =C
  • 39. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ 3.4. Định lý Bayes Trong nhiều nghiên cứu, ta ước lượng các xác suất cho việc phân tích các sự kiện sẽ xảy ra sau. Tuy nhiên trong quá trình nghiên cứu, có nhiều thông tin mới xuất hiện có liên quan đến sự xuất hiện hay không của một sự kiện đó. Với các thông tin bổ sung này, định lý Bayes đưa ra một giá trị trung bình cho việc tính toán các xác suất sẽ xảy ra sau đó của một sự kiện. Hình 3.4 chỉ ra các bước trong việc xem xét đánh giá lại các xác suất. Xác suất trước Các thông tin mới hoặc bổ sung Áp dụng định lý Bayes Xác suất hồi cố Hình 3.4. Sự đánh hồi cố xác suất dựa theo định lý Bayes Định lý được phát biểu cho xác suất điều kiện được biểu diễn bằng công thức: Trong đó : i =1,2,3,...,n Nhìn chung trong hầu hết các quyết định, Ai là sự kiện xuất hiện trước khi B xuất hiện. Để đơn giản hơn, định lý Bayes được viết như sau: 39 ]153[ )()(...()()( )()( }( 211 − |++|+| | =| in ii i APABPABPAPABP APABP BAP
  • 40. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Ví dụ 3.6: Một chuyên gia dinh dưỡng khi nghiên cứu về tình hình suy dinh dưỡng trong nhân dân đã cho biết có 3% dân số của một nước đang phát triển ở tình trạng suy dinh dưỡng. Khi kiểm tra lại báo cáo của Chính phủ thông qua số liệu ghi chép thì qua kiểm tra (sự kiện B) Chính phủ đã xác định xác suất điều kiện (suy dinh dưỡng tồn tại) là: P(B|A1)=0,95 Và xác suất tương ứng (người không bị suy dinh dưỡng) là: P(B|A2) = 0,04 Suy dinh dưỡng giản đơn thường khó phân biệt vì nó thường xuất hiện cùng với nhiều loại bệnh khác. Do vậy xác suất bắt gặp ngẫu nhiên người suy dinh dưỡng thực sẽ là bao nhiêu? Giải: Gỉa sử A1 là những người bị suy dinh dưỡng và A2 là những người không bị suy dinh dưỡng. Như vậy xác suất cho mỗi số liệu là: P(A1) = 0,03 P(A2) = 0,97 Theo định lý Bayes, đây được xem là những xác suất trước (prior probability) bởi vì nó được ghi nhận lần quan sát sơ bộ về dinh dưỡng. Nó không đề cập đến các kinh nghiệm đã được áp dụng trong nhân dân. Để xác định xác suất hồi cố khi được đánh giá lại ta phải tính xác suất kết hợp trong tử số và mẫu số của phương trình [3- 16]. Điều này sẽ được hoàn thiện bằng sử dụng qui tắc nhân: P(A1 ∩B) = P(A1)P(B|A1) [3-17] và P(A2 ∩B) = P(A2)P(B|A2) [3-18] 40 ]163[ )( )()( )( 1 − | =| BP ABPAP BAP i i
  • 41. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ ta có P(B) = P(A1)P(B|)A1)+P(A2)P(B|A2) [3-19] Thay các phương trình [3-17[ và [3-19] vào tử số và mẫu số của phương trình [3-16] ta có: Với ví dụ đang xét ta có xác suất tính toán lại như sau: Như vậy xác suất hồi cố cho thấy người bị suy dinh dưỡng sẽ là 0,42. Cách tính theo định lý Bayes được trình bày ở bảng 3.3. Các bước tính toán được thực hiện như sau: + Bước 1: Lập bảng có 5 cột như Bảng 3.3 Bảng 3.3. Tính theo định lý Bayes cho ví dụ 3.6 Sự kiện A1 Xác suất đầu P(A) Xác suất điều kiện P(B|A1) Xác suất kết hợp P(A1)P(B|A1) Xác suất hồi cố P(A1|B) A1: Suy dinh dưỡng 0,03 0,95 0,0265 0,0285/0,0673=0,42 A2 : Đủ dinh dưỡng 0,97 0,04 0,0388 0,0388/0,0673=0,58 P(B)=0,0673 1,00 + Bước 2: Cung cấp các thông tin mới cho nhà nghiên cứu, xác suất kết hợp cho mỗi sự kiện dược tính và thay thế vào cột thứ 4. Đơn thuần đây chỉ là tính xác suất đầu và xác suất điểu kiện hay tích của cột thứ 2 và thứ 3. + Bước 3: Lấy tổng của cột xác suất kết hợp để xác định xác suất liên quan với các thông tin mới P(B). Xác suất liên kết cho ví dụ trên với các thông tin mới bổ sung, chẳng hạn như khí hậu (được gọi là sự kiện B) là 0,0673. 41 ]203[ )()()()( )()( )( 2211 11 1 − |+| | =| ABPAPABPAP ABPAP BAP 42,0 0673,0 0285,0 )04,0)(97,0()95,0)(03,0( )95,0)(03,0( )( 1 == + =| BAP
  • 42. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ + Bước 4: Tính xác suất hồi cố bằng sử dụng quan hệ cơ bản của xác suất điều kiện theo phương trình [3-15]. Nghiã là, xác suất liên kết cho mỗi sự kiện được chia cho P(B), chúng là tổng của xác suất điều kiện. 3.5. Phân bố xác suất Trong các phần trên ta đã đề cập đến các khái niệm xác suất và cách tính xác suất cho mỗi sự kiện. Khi chúng ta muốn biết xác suất của mỗi lần xuất hiện trong tập hợp của các sự kiện, ta đề cập đến phân bố xác suất. Phân bố xác suất là dạng đặc biệt của phân bố tần suất khi tần suất được xem như là xác suất. Ta có thể hiểu khái niệm phân bố xác suất như là danh sách hoàn chỉnh của tất cả khả năng xuất hiện của một thí nghiệm cùng với xác suất của chúng. Có một vài sự phân bố xác suất có ý nghĩa quan trọng trong khoa học nông nghiệp và môi trường. Ví dụ như phân bố nhị thức và phân bố thường cho các biến liên tục. - Phân bố nhị thức (Binomial distribution): Đây là phân bố xác suất được sử dụng rộng rãi nhất cho một biến rời rạc. Nó mô tả phân bố xác suất khi chỉ có 2 khả năng xuất hiện của một sự kiện hoặc thí nghiệm. Ví dụ, sự phân bố số lượng lợn đực trong n con lợn mới sinh ra là phân bố nhị thức vì mỗi con lợn con có thể là đực hoặc cái. Trong một thí nghiệm đồng ruộng, một nhà nông học có thể nhận thấy việc sử dụng thuốc diệt cỏ có tác dụng hoặc không. Hoặc một nhà khoa học vật nuôi muốn kiểm tra thí nghiệm tiêm vắc xin có hiệu quả hay không. Tất cả những vấn đề này đều có 2 khả năng xảy ra. Hai khả năng xuất hiện trong một thí nghiệm, thường được gọi là thành công hoặc thất bại. Nếu một sự kiện ngẫu nhiên có 2 dạng trên và xác suất của một sự kiện xuất hiện (thành công) được xác định là p và q, trong đó q=1-p hoặc xác xuất của sự kiện không xuất hiện (thất bại) thì xác suất của r thành công trong n phép thử được tính như sau: P(r) = ( nCr )( P)r (q)n-r [3-21] Cho r= 0,1,2,...,n 42
  • 43. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Ký hiệu (( nCr ) nghĩa là ta lấy ngẫu nhiên ra r phần tử (r ≤ n) sao cho 2 cách lấy được gọi là khác nhau nếu giữa chúng có ít nhất một phần tử khác nhau. Số cách lấy ra r phần tử như vậy được gọi là tổ hợp chập r của n. Ví dụ 3.7: Một chuyên gia môi trường dựa trên kinh nghiệm cho rằng 80% cây giống có khả năng sống sau khi trồng. Nếu lấy ngẫu nhiên 6 cây giống từ khu vực trồng cây, cho biết xác suất có thể lấy để có 2 cây sống. Giải: Với p=0,80 và q=1-p=0,20, vì vậy xác suất lấy mẫu có 2 cây sống sau khi trồng sẽ được xác định như sau: Vì xác suất sống của 2 cây giống sau khi trồng với cách lấy ngẫu nhiên 6 cây sẽ là 0,01536. Xác xuất cho các khả năng khác xảy ra đựợc trình bày ở Bảng 3.4. Giá trị xác suất cũng có thể có được từ bảng nhị thức chung ở Bảng phụ lục A. Phân bố nhị thức được sử dụng trong trường hợp khi muốn xác định xác suất xảy ra một cách độc lập, nghĩa là sự xảy ra của bất kỳ một phép thử hoặc nhiều phép thử này không ảnh hưởng đến việc xảy ra của các phép thử tiếp theo; và với mỗi phép thử sẽ có 2 khả năng xảy ra. Bảng 3.4 Phân bố xác suất cho số lượng các cây giống sống sót sau khi trồng Số lượng các cây giống sống Xác suất 0 1 2 3 4 5 6 Tổng 0,00006 0,00156 0,01536 0,08192 0,24576 0,39322 0,26214 1,00000 43
  • 44. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ - Phân bố thường (Normal distribution): Phân bố thường cũng là một trong những phân bố xác suất liên tục rất phổ biến. Được gọi là phân bố thường vì nó sấp xỉ với các biến ngẫu nhiên có số lượng lớn. Phân bố này được áp dụng trong nhiều tình huống khác nhau và là trung tâm của nhiều vấn đề thống kê. Phương trình phân bố mật độ của nó được biểu diến dưới dạng hình chuông đối xứng, tiếp cận (tiệm cận) nhưng không cắt trục hoành. Đường cong thường được xác định bởi số trung bình µ (mean) và độ lệch chuẩn σ (standard deviation) của nó. Chúng là những đặc tính quan trọng của đường cong thường vì ta có thể tính được toàn bộ sự phân bố dựa trên giá trị trung bình và độ lệch chuẩn. Có 3 dạng đường phân bố thường với cùng một số trung bình nhưng khác nhau về độ lệch chuẩn. Cần chú ý rằng trong những trường hợp riêng biệt, độ lệch chuẩn có ảnh hưởng đến dạng chung của đường cong phân bố thường. Ba đường cong có kích thước khác nhau nhưng chúng đều có mối liên hệ chung tương đối nào đó. Trước hết, tổng diện tích dưới đường cong phân bố liên tục là bằng 1. Thứ hai, mỗi đường cong có một nửa diện tích lớn hơn giá trị trung bình và một nửa nhỏ hơn giá trị trung bình (được phân chia bằng đường thẳng đứng chính diểm giữa trên cơ sở đường trục hoành). Thứ ba, giá trị của khoảng dao động X từ -∞ đến +∞. Tuy nhiên với mục đích thực tế ta không cần quan tâm đến giá trị X nằm ngoài 3 hoặc 4 lần độ lệch từ giá trị trung bình. Đây là kinh nghiệm và chỉ được áp dụng cho mẫu có phân bố tần suất dạng hình chuông. Với qui tắc này, sấp xỉ 68; 95 và 99% các giá trị nằm trong vùng tương ứng với µ ± 1, µ ± 2,và µ ± 3. - Đường cong tiêu chuẩn thông thường (Standard normal curve): Đường cong tiêu chuẩn thông thường là chúng có số trung bình bằng 0 và độ lệch chuẩn bằng 1. Vì các biến phân bố thông thường có thể các thứ nguyên (đơn vị đo lường) khác nhau như cm, kg, giờ, ngày... nên để thuận tiện ta chuyển đổi các giá trị này thành đơn vị chuẩn gọi là độ lệch tiêu chuẩn thường (Standard normal deviate). 44
  • 45. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Độ lệch thường z là khoảng cách cho thấy khả năng một biến ngẫu nhiên thường từ giá trị x từ số trung bình của nó. Độ lệch Z được tính theo công thức: Z = (x- µ ) / σ [3-12] Trong đó X = giá trị quan trắc µ = số trung bình của phân bố σ = Độ lệch chuẩn của phân bố Để mô tả điều này, ta biểu diễn bằng diện tích. Giả sử rằng sản xuất sữa trung bình hàng ngày từ một con bò có phân bố thường là 65 lít với độ lệch chuẩn là 15 lit. Giả sử có một giá trị quan trắc được là 87. Hãy tính độ lệch Z từ giá trị trung bình. Để tính Z ta có: Z = (x- µ ) / σ = (87 – 65) / 15 = 1,47 Giá trị 87 nằm lệch 1,47 về phía phải số trung bình là 65. Để tìm diện tích cho z=1,47 ta sử dụng Bảng phụ lục B; tra cột 1.4 ở phụ lục B và hàng 0,07. Diện tích dưới đường cong được tìm thấy ở chỗ cắt nhau giữa cột và hàng trên là 0,4292. Con số này cho biết có 42,92% diện tích dưới đường cong sẽ xác định sự phân bố mức sản xuất sữa hàng ngày của bò. Vì đường cong phân bố thường là đối xứng, do vậy giá trị bảng phụ lục chỉ xác định một nửa của đường cong. Ví dụ 3.8: Một nhà nông học xác định mức tăng sinh khối khô của một loại cây trồng là 10g với độ lệch chuẩn là 2 gam. Hãy xác định tỷ lệ sinh khối khô giữa 10 và 14 gam. Giải 45
  • 46. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Phần diện tích sinh khối giữa 10 và 14 g chính là diện tích nằm dưới đường cong thường giữa giá trị trung bình và một điểm lớn hơn gía trị trung bình . Giá trị Z được tính như sau: Z = (14 – 10) / 2 = 2 Sử dụng phụ lục B để xác định diện tích dưới đường cong với z=+2, ta có giá trị 0,4772. Ta có thể nói rằng 47,72% phần diện tích trong phân bố thường nằm giữa giá trị trungbình và giá trị của 2 lần độ lệch chuẩn về phía bên phải (lớn hơn giá trị trung bình). Ta kết luận rằng 0,4772 là tỷ lệ của sinh khối khô giữa 10 và 14 gam. Ví dụ 3.9: Một nhà làm vườn muốn tăng cường thời gian giữ cho hoa tươi bằng cách nhân giống. Từ một mẫu phân bố thường, đã xác định được thời gian giữ cho hoa tươi là 168 gìơ (µ=168) với độ lệch chuẩn là 30 giờ. Hãy xác định tỷ lệ để có hoa tươi trong khoảng 192-216 giờ. Giải; Tính Z cho 192 giờ: Z = (192 – 168) / 30 = 0,80 Tính Z cho 216 giờ: Z = (216 – 168) / 30 = 1,60 Diện tích cho mỗi giá trị Z trên sẽ là: Z=1,60 diện tích là 0,4452 Z=0,80 diện tích là 0,2881 Xác suất được xác định là hiệu của hai diện tích xác định được ở trên và có giá trị là 0,1571. Ví dụ 3.10: Trên cơ sở các số liệu ở ví dụ 3.9; hãy xác định xác suất của hoa có thời gian tươi sau khi cắt khoảng 144-204 giờ. 46
  • 47. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Giải Với 144 giờ ta có: Z= (144-168) / 30= -0,8 Với 204 giờ, ta có: Z= (204-168) / 30= 1,20 Diện tích cho các giá trị Z sẽ là: Z = -0,8 diện tích là 0,2881 Z = 1,20 diện tích là 0,3849 Xác suất hoa tươi sau khi cắt nằm trong khoảng 144-204 giờ sẽ là tổng của 2 diện tích trên hay bằng 0,6730. Ví dụ 3.11: Với các thông số ở ví dụ 3.9. Hãy xác định xác suất của hoa còn tươi sau khi cắt 240 giờ. Giải: Tính Z cho 240 giờ Z= (240-168) / 30=2,4 Với z=2,4 diện tích nhỏ hơn đường cong trung bình là 0,4918. Vì vậy, nếu 0,4918 là diện tích giữa 168 và 240 giờ, diện tích nằm ngoài 240 giờ là sự khác biệt giữa 0,5000 (tổng diện tích nằm phía bên phải giá trị trung bình) và 0,4918. Xác suất hoa còn tươi sau 240 giờ là 0,0082 (Hình 3.12). Ví dụ 3.12: Với các thông số ở ví dụ 3.9. Hãy xác định xác suất của hoa còn tươi sau khi cắt 192 giờ (hình 3.13). Giải: Tính Z cho 192 giờ 47
  • 48. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Z= (192-168) / 30=0,80 Diện tích nhỏ hơn giá trị trung bình 168 tương ứng với 0,5000 và diện tích cho z =0,80 sẽ là 0,2881. Vì vậy, xác suất sẽ là tổng của 2 vùng tương ứng với 0,7881. Ví dụ 3.13: Chúng ta có thể đặt câu hỏi là xác định xác suất của hoa tươi trên 120 giờ sau khi cắt như được mô tả ở Hình 3.14. Giải: Với thời gian 120 giờ, ta có giá trị Z như sau: Z=(120-168) / 30=-1,6 Diện tích lớn hơn 168 sẽ tương ưứng với 0,5000 và diện tích cho Z=-1,6 là 0,4452. Vì vậy xác suất hoa còn tươi sau khi cắt 120 giờ sẽ là tổng của 2 diện tích trên, tương ứng với 0,9452. CHƯƠNG 4. GIỚI THIỆU VỀ CÁC KHÁI NIỆM LẤY MẪU 4.1. Giới thiệu chung Trong nghiên cứu về môi trường cũng như khoa học nông nghiệp, việc thu thập các số liệu để phân tích một vấn đề đòi hỏi phải lựa chọn những mẫu đại diện cho các lĩnh vực nghiên cứu khác nhau. Từ đó có thể đưa ra những đặc trưng chung cho một tổng thể nào đó. Việc thu thập mẫu thường chỉ chiếm phần nhỏ trong một tổng 48
  • 49. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ thể rất lớn, do vậy việc lựa chọn và lấy mẫu có ý nghĩa rất quan trọng đặc trưng cho tổng thể. Việc lấy mẫu chính xác có nhiều lợi ích trong quá trình nghiên cứu. - Giảm thời gian, tiền bạc và các nguồn tài nguyên cần thu thập - Hạn chế việc gây ảnh hưởng đến tự nhiên do quá trình lấy mẫu gây ra - Có thể cung cấp những thông tin cần thiết đại diện cho một tổng thể cần nghiên cứu. 4.2. Các khái niệm về lấy mẫu đại diện - Tổng thể (population): Một tổng thể được xác định là toàn thể một nhóm các cá thể, các vật hoặc sự kiện có ít nhất một đặc điểm chung nào đó mà ta cần nghiên cứu. Ví dụ một nhà khoa học chăn nuôi có thể chú ý đến toàn bộ các cá thể sinh vật trong một quần thể. Nhà khoa hoc môi trường có thể chú ý đến quần thể cá heo, nhà nông học có thể quan tâm đến quần thể một giống lúa, nhà kinh tế nông nghiệp nói về các nông dân sản xuất lúa mì. Một tổng thể có thể có hạn hoặc vô hạn. Một tổng thể có hạn sẽ có một giới hạn trên chính xác, trong khi một tổng thể vô hạn sẽ không bị hạn chế về kích cỡ của nó. -Tham số (parameter): Tham số là sự ước lượng một hoặc nhiều tính chất của một tổng thể, Nếu chúng ta tập hợp thông tin về thu nhập của người nông dân hàng năm là một tham số cho một nhóm nông dân xác định nào đó. Cần chú ý rằng điều này chỉ có thể xáy ra khi thời gian và sự chi phí hàng năm sẽ là ổn định. Do vậy, hầu hết các thông số đều là ước lượng hoặc suy luận. -Mẫu (sample): 49
  • 50. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Một mẫu được khái niệm là một phần nhỏ của tổng thể được lấy ra theo một qui tắc hoặc kế hoạch nào đó. Ví dụ một nhà làm vườn trồng 500 cây hoa trong một nhà kính. Nếu ta lấy 50; 25 hoặc 10 cây hoa trong số đó ta có một mẫu. Vì vậy một mẫu là một phần của tổng thể. Ngay cả khi ta lấy 499 cây hoa thì đó cũng chỉ là một mẫu. Chỉ khi lấy cả 500 cây hoa thì lúc đó ta nghiên cứu một tổng thể. Bởi vì tiếp cận với mẫu là dễ dàng hơn tổng thể nên thông thường các nghiên cứu được thực hiện với mẫu rồi từ đó chúng ta sẽ suy luận cho tổng thể. -Thống kê (statistic): Thống kê bao gồm các đặc điểm của một mẫu đã được xác định. Ví dụ một nhà làm vườn lựa chọn 50 cây hoa phong lan, đo đạc kích thước của bông hoa mới nở và tính kích thước trung bình của chúng. Kết qủa tính toán này được gọi là một phép thống kê. Thống kê suy luận là phương pháp dự báo các tham số chưa biết từ phép thống kê đã biết. 4.3. Kỹ thuật lấy mẫu trong khoa học nông nghiệp và môi trường Yêu cầu lấy mẫu phải đại diện cho một tổng thể nghiên cứu. Về cơ bản có 2 phương pháp lấy mẫu là lấy mẫu xác suất và lấy mẫu theo chủ định (không theo xác suất). Trong lấy mẫu xác suất, tất cả các phần tử trong tổng thể nghiên cứu có cơ hội ngang nhau để lựa chọn. Lấy mẫu không ngẫu nhiên (không theo xác suất) dựa trên những đánh giá, quy ước nào đó để lựa chọn lấy mẫu. 4.3.1. Lấy mẫu xác suất - Lấy mẫu ngẫu nhiên đơn giản: Đây là phươngpháp lẫy mẫu phổ biến thường được áp dụng. Theo cách lấy mẫu này, mọi phần tử đều có cơ hội ngang nhau để được lựa chọn. Ví dụ: Một tổng thể (N) bao gồm 50 cây ngô trong một thí nghiệm, người nghiên cứu muốn lấy 20 cây để phân tích mô thì mọi cây ngô đều có thể được lựa chọn để lấy mẫu. Sau khi trộn cẩn thận, cây ngô thứ nhất được lấy, rồi cây thứ hai, thứ ba,... cho đến cây ngô thứ 20. Để thuận tiện hơn, người ta sử dụng kỹ thuật đánh số ngẫu nhiên theo các bước sau: 50
  • 51. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ +Bước 1. Mỗi cây được đánh số thứ tự từ 01 đến 50 một cách ngẫu nhiên. +Bước 2. Chọn ngẫu nhiên (theo bảng kê ngẫu nhiên) theo một cách tuỳ ý +Bước 3. Lấy các cây ngô được đánh số đã dược lựa chọn ở bước 2 ta có mẫu nghiên cứu. -Lấy mẫu hệ thống: Việc lấy mẫu ngẫu nhiên đơn giản như trình bày ở trên sẽ gặp khó khăn khi số lượng mẫu lớn hoặc trong một tổng thể lớn. Trong trường hợp này có thể áp dụng kỹ thuật lấy mẫu hệ thống hay còn gọi là lấy mẫu ngẫu nhiên đa bậc (Gomez, 1984) bằng cách nhóm mỗi mười, hai mươi phần tử trong tổng thể thành một nhóm. Ví dụ: Một nhà nghiên cứu muốn lấy mẫu ngẫu nhiên n=400 con bò từ một tổng thể N=1600 con bò để nghiên cứu. Giả sử tổng thể đàn bò được phân bố một cách ngẫu nhiên. Việc lấy mẫu được thực hiện bằng cách nhóm mỗi bốn con bò thành một nhóm (vì 1600:400=4). Sau đó việc lựa chọn theo từng nhóm để được 4, 8, 12, 16, ... cho dến khi có 400 con bò. - Lấy mẫu theo lớp: Trong kỹ thuật lấy mẫu này tổng thể được chia thành k lớp hoặc dưới tổng thể trước khi lựa chọn một cách ngẫu nhiên các phần tử từ các lớp. Việc lấy mẫu này rất phù hợp khi có sự sai khác nào đó giữa các lớp. Trong trường hợp này người nghiên cứu cố gắng gộp các phần tử có tính chất khác nhau vào các lớp khác nhau. Ví dụ: Một nhà chăn nuôi muốn gộp mẫu ngẫu nhiên dựa vào tuổi của động vật làm cơ sở cho sự khác nhau giữa chúng. Kết quả sẽ được các nhóm có lứa tuổi khác nhau hay gọi là các lớp khác nhau. Sau đó cộng các nhóm từ mỗi lớp tuổi như là việc lấy mẫu theo lớp. Hoặc một nhà nông học có thể chia các lớp một ruộng thí nghiệm trên cơ sở lượng phân bón, sau đó sẽ lấy mẫu cây từ mỗi ô bón phân khác nhau để xác định năng suất. Trong nghiên cứu nông nghiệp, việc lấy mẫu theo lớp cũng tương ứng với việc thiết kế thí nghiệm theo khối. 51
  • 52. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Việc lấy mẫu theo lớp có nhiều lợi ích như bảo đảm độ chính xác với sự sai khác nhỏ hơn so với lấy mẫu ngẫu nhiên đơn giản. Bảo đảm tính đồng nhất của mẫu cao hơn so với tổng thể trong khi chi phí có thể ít hơn. Trong khoa học nông nghiệp và môi trường, các nhà khoa học sử dụng nhiều cách khác nhau để lấy mẫu theo lớp. Ví dụ: một nhà nghiên cứu ngô có thể sử dụng cách lấy mẫu theo lớp để xác định số bắp trung bình trên cây như sau: Các hàng ngô trong ruộng thí nghiệm sẽ được sử dụng như những đơn vị lấy mẫu thứ nhất, các cây ngô trong mỗi hàng là đơn vị lấy mẫu thứ hai. Nghĩa là chúng ta chia các cây ngô ở mỗi hàng được lựa chọn thành k lớp dựa vào vị trí tương đối của chúng trong hàng, sau dó lấy ngẫu nhiên m cây từ mỗi lớp. Giả sử rằng các cây ngô ở mỗi hàng được lựa chọn được chia thành 2 lớp (lớp thấp và lớp cao) rồi chọn một cách ngẫu nhiên 5 cây ngô từ mỗi lớp. Tổng số cây ngô sẽ dược lấy ở 3 hàng lựa chọn là: (A)(B)(C) =S Trong dó A: Lớp (stratum) B: Kích thước mẫu muốn lấy từ mỗi lớp C: Tổng số hàng dược lựa chọn ngẫu nhiên S: Tổng số cây sẽ được lấy Với thí nghiệm trên ta có: (2)(5)(3) = 30 cây 4.3.2. Lấy mẫu không theo xác suất 52
  • 53. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Trong cách lấy mẫu này, các phần tử trong tổng thể sẽ không có cơ hội ngang nhau trong khi lựa chọn do hạn chế về tài chính hoặc hạn chế của mẫu. Những cách lấy mẫu thường gặp ở đây là lấy mẫu theo chủ ý, lấy mẫu theo tỷ lệ và lấy mẫu thích hợp. - Lấy mẫu chủ ý: Việc lấy mẫu phụ thuộc vào chủ ý của người nghiên cứu. Ví dụ một công ty máy kéo sử dụng cách lấy mẫu này làm cơ sở để xác định thói quen mua và sử dụng máy kéo. Người nghiên cứu sẽ lựa chọn những người nông dân được cho là đại diện cho tất cả mọi người nông dân, sau đó sẽ thu thập các thông tin cần thiết cho việc phân tích của họ. - Lấy mẫu theo tỷ lệ: Trong kỹ thuật lấy mẫu này tính chất tổng thể lớn có vai trò quan trọng trong việc lựa chọn mẫu. Ví dụ, một nhà khoa học chăn nuôi theo dõi sự biến động sản lượng sữa hàng ngày ở các tuổi khác nhau. Như vậy dặc điẻm cơ bản quan trọng để lựa chọn là các nhóm tuổi khác nhau. Ví dụ: Nếu 30% số bò có tuổi 4- 6 năm và 70% còn lại là 6-8 năm tuổi, thì chỉ tiêu lấy mẫu phải tương ứng với tỷ lệ phần trăm này. - Lấy mẫu thích hợp: Lấy mẫu phụ thuộc vào kinh phí, thời gian và sự cho phép. Cách lấy mẫu này chỉ được sử dụng trong những trường hợp đặc biệt và không nên sử dụng để suy doán cho tổng thể. Nhìn chung lấy mẫu không ngẫu nhiên thường có sự dao động lớn so với lấy mẫu ngẫu nhiên nên ít được sử dụng trong nghiên cứu. 4.4. Phân bố mẫu (sampling distribution) Phân bố mẫu được hiểu là sự phân bố tần xuất cho xác suất cho tất cả các khả năng của các mẫu có kích thước như nhau dược lấy ra từ một tổng thể. Vì các số liệu thống kê từ mẫu được sử dụng để đặc trưng cho tổng thể nên sự phân bố mẫu trong tổng thể có ý nghĩa rất quan trọng. Vì phân bố mẫu cũng là phân bố xác suất nên dựa vào vấn đề này sẽ giúp chúng ta có những quyết định tốt hơn khi lấy mẫu. 53
  • 54. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Phân bố mẫu có thể được xây dựng từ một tổng thể riêng biệt có hạn. Có 3 tính chất quan trọng của một phân bố mẫu là: 1. Số trung bình của phân bố 2. Độ lệch chuẩn 3. Dạng phương trình hoặc mô hình phân bố Phân bố mẫu của số trung bình: Như trên đã trình bày, số trung bình mẫu và các tính chất khác của mẫu được sử dụng để suy luận cho tính chất của tổng thể. Tuy nhiên trên thực tế, các số trung bình của mẫu thường ít khi ngang bằng vơi số trung bình của tổng thể mà chỉ có giá trị xấp xỉ. Chính vì vậy khi tiếp cận lấy mẫu thường gặp nhiều khó khăn. Nếu lấy mẫu có xem xét đến tất cả khả năng kết hợp và tính giá trị trung bình và sự biến định thì rất khó khăn và mất nhiều thời gian. Do vậy ta thường sử dụng phân bố mẫu để suy luận về tổng thể nghiên cứu. Vì phân bố mẫu của số trung bình là một phân bố thường ta có thể sử dụng tỉ lệ % theo đường cong thường từ bảng trị số chuẩn hoá Z (Z score). Những ví dụ sau đây sẽ mô tả mối liên hệ giữa số trung bình và sự biến động của phân bố mẫu với số trung bình và sự biến động tổng thể. Chúng ta có thể nhận thấy số trung bình phân bố mẫu cũng chính là số trung bình tổng thể. Hơn nữa nó cũng cho thấy sự phân bố mẫu của số trung bình cũng xấp xỉ với đường cong chuẩn. Ví dụ 4.1. Giả sử chúng ta có 5 con lợn, nếu ta chọn 2 con để làm thí nghiệm. Biến ngẫu nhiên cần nghiên cứu (x) là khối lượng (kg) của lợn, với các số liệu sau: x1 = 50, x2 = 45, x3 = 50, x4 = 45 và x5 = 40 Giải: Trước hết ta tính giá trị trung bình số học cho tổng thể gồm 5 con lợn là: 54 kg N x 46 5 230 5 4045504550 == ++++ == ∑µ
  • 55. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Bây giờ giả sử ta chỉ chọn hai con lợn bất kì trong chúng thì giá trị trung bình của chúng sẽ sai khác thế nào với giá trị trung bình của tổng thể. Bây giờ ta xây dựng phân bố mẫu của số trung bình và tính số trung bình của chúng. Như vậy sẽ có 10 khả năng kết hợp để có thể chọn được 2 con lợn từ tổng thể. Bảng 4.2 cho biết các cách kết hợp và số trung bình của chúng. Bảng 4.2. Số trung bình mẫu cho tất cả các khả năng lấy mẫu với 2 con lợn Mẫu Giá trị kết hợp mẫu Tổng ∑ X Trung bình mẫu X x1x2 x1x3 x1x4 x1x5 x2x3 x2x4 x2x5 x3x4 x3x5 x4x5 50 50 50 50 45 45 45 50 50 45 45 50 45 40 50 45 40 45 40 40 95 100 95 90 95 90 85 95 90 85 47,5 50,0 47,5 45,0 47,5 45,0 42,5 47,5 45,0 42,5 Từ Bảng 4.2 ta thấy giá trị trung bình có thể của tất các số trung bình mẫu sẽ hướng tới số trung bình tổng thể. Nghĩa là số trung bình của phân bố mẫu (cột 4 Bảng 4.2) là giống với số trung bình tổng thể (46) được tính ở trên. Vì các số trung 55 10 !3!2 !5 )!( ! == − = rnr n Crn
  • 56. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ bình mẫu có tần số xuất hiện khác nhau, sự phân bố mẫu sẽ không có ý nghĩa gì nhưng phân bố xác suất lại rất có ý nghĩa (Bảng 4.3). Bảng 4.3 Phân bố xác suất của các số trung bình mẫu Số trung bình mẫu ( X ) Tần suất (f) (f X ) Xác suất 42,5 45,0 47,5 50,0 Tổng 2 3 4 1 10 85 135 190 50 460 2/10 = 0,20 3/10 = 0,30 4/10 = 0,40 1/10 = 0,10 10/10 = 1,00 Số trung bình của phân bố mẫu được xác định bằng cách cộng tất cả các số trung bình mẫu rồi chia cho số khả năng lấy mẫu: Khối lượng trung bình của lợn trong phân bố mẫu của số trung bình là 46kg. Vì vậy chúng ta có thể nói rằng µ X =µ hay số trung bình của phân bố mẫu là bằng số trung bình tổng thể. Câu hỏi đặt ra là liệu µ X có luôn luôn bằng với µ ? Khi tính số trung bình phân bố mẫu chúng ta lấy tất cả các khả năng kết hợp mẫu để tính và do vậy không có sự sai khác với số trung bình tổng thể. Tuy nhiên trên thực tế, các nghiên cứu thường không tính cho tất cả các cách kết hợp nên liệu số trung bình mẫu có gần trùng với số trung bình tổng thể hay không vẫn còn là một câu hỏi. Câu trả lời ở đây là có vì với kết quả của các thí nghiệm được lặp lại, các kết quả xử lí thống kê đã chứng minh rằng số trung bình phân bố mẫu luôn hướng tới số trung bình tổng thể. - Độ lệch chuẩn của phân bố của số trung bình mẫu 56 ]14[46 10 )5,42...5,47505,47()...( 321 −= ++++ = ++++ = kg n cxxxx rn X µ
  • 57. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Để xác định khoảng trong đó số trung bình mẫu dao động so với số trung bình tổng thể ta sử dụng phương pháp xác định mức độ phân tán chẳng hạn như độ lệch chuẩn. Trong trường hợp phân bố trung bình mẫu, ta cũng chú ý đến độ lệch của số trung bình mẫu từ số trung bình phân bố mẫu. Độ lệch chuẩn của phân bố mẫu được thể hiện như sai số chuẩn của số trung bình (standard error of the mean). Điều đó cho ta biết độ chính xác của phép ước lượng. Khi sai số chuẩn càng lớn thì độ chính xác ước lượng càng nhỏ. Cách tính độ lệch chuẩn của số trung bình được trình bày ở ví dụ 4.1. Cách tính sai số chuẩn của số trung bình cũng tương tự cách tính các độ lệch chuẩn khác ( ) ]24[ 2 − − = ∑ N X X X µ σ Vì thực tế ta không lấy tất cả các khả năng kết hợp của mẫu trong một tổng thể, vì vậy ta áp dụng công thức tính sai số chuẩn của số trung bình: Trong đó: X σ = sai số chuẩn của số trung bình. σ = độ lệch chuẩn của tổng thể n = kích (cỡ) mẫu Công thức trên được sử dụng để tính sai số chuẩn của số trung bình cho tổng thể vô hạn. Tuy nhiên trong trường hợp một tổng thể có hạn chúng ta áp dụng công thức có tính đến các yếu tố hiệu chỉnh như sau: Trong đó σ = Độ lệch chuẩn tổng thể 57 29.2 10 50,52 10 )465,42(...)4650()465,47()( 2222 == −++−+− = − = ∑ N x x x µ σ ]34[ −= nx σ σ ]44[ 1 − − − = N nN nX σ σ
  • 58. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ N = kích thước tổng thể n = kích thước mẫu 1− − N nN = yếu tố hiệu chỉnh cho tổng thể giới hạn Yếu tố hiệu chỉnh độ chính xác ( ) ( )1−− NnN là giá trị sấp sỉ 1 khi kích thước tổng thể N là tương đối lớn so với kích thước mẫu n. Điều này có nghĩa là khi kích thước mẫu n được lấy từ một tổng thể rất lớn (nhưng có giới hạn) thì sai số chuẩn của số trung bình X σ sẽ bằng nσ Trong thực tế, yếu tố hiệu chỉnh của một tổng thể có hạn được áp dụng cả khi n nhỏ hơn 10% của N. Cần chú ý rằng phương trình trên đòi hỏi phải biết được độ lệch chuẩn của tổng thể. Từ số liệu đã cho ở ví dụ 4.1 ta có thể tính độ lệch chuẩn của tổng thể như được trình bày ở chương 2 (mục 2.4) Trong ví dụ này ta có một tổng thể tới hạn nên ta áp dụng yếu tố hiệu chỉnh. Do vậy sai số chỉnh cho dãy số liệu này là: Từ ví dụ này cho thấy cách tính sai số chuẩn của số trung bình bằng hai phương pháp là như nhau. Cần lưu ý rằng độ lệch chuẩn của tổng thể sẽ không bằng độ lệch chuẩn của phân bố trung bình mẫu. Tuy nhiên độ lệch chuẩn của phân bố mẫu lại bằng độ lệch chuẩn của tổng thể chia cho căn bậc hai của mẫu. Nghĩa là: 58 74,3 5 70 5 )4640(...)4654()4650()( 2222 == −++−+− = − = ∑ N X µ σ 29,2)8660,0(64,2 15 25 2 74,3 == − − =X σ nX σ σ =
  • 59. Ph¬ng ph¸p thèng kª trong Khoa häc N«ng nghiÖp vµ M«i trêng __________________________________________________________________ ______ Phương trình này chỉ rõ hai mối quan hệ tồn tại giữa sai số chuẩn và kích thước mẫu. Trước hết khi cỡ mẫu tăng thì sai số chuẩn sẽ giảm đi. Thứ hai, ta có thể xác định sai số chuẩn của phân bố trung bình mẫu khi đã biết độ lệch chuẩn tổng thể (σ), kích thước mẫu (n) và kích thước tổng thể (N). Khi không biết được độ lệch chuẩn tổng thể, thì sẽ sử dụng các giá trị của độ lệch chuẩn mẫu (hoặc nhiều mẫu) như số sấp sỉ cho độ lệch chuẩn tổng thể. Ta có công thức tính độ lệch chuẩn tổng thể như sau: Có rất nhiều quan trắc có thể sử dụng phân bố trung bình mẫu và tổng thể: 1. Số trung bình tổng thể và phân bố trung bình mẫu của các số trung bình là bằng nhau. Điều này luôn luôn đúng khi tất cả các khả năng lấy mẫu đều được lấy từ tổng thể. 2. Sự phân tán của phân bố trung bình mẫu là nhỏ hơn sự phân tán trong tổng thể. Như ví dụ ở bảng 4.2 các giá trị của tổng thể dao động từ 40 đến 50 kg, trong khi các số trung bình mẫu dao động từ 42,5 đến 50 kg. 3. Sơ đồ phân bố trung bình mẫu có xu hướng gần với đường cong chuẩn thậm chí ngay khi tổng thể không có phân bố chuẩn. Cần chú ý rằng mặc dù tấn suất tương đối của các giá trị riêng rẽ của X là bằng nhau, và do vậy phân bố tần suất tương đối bằng phẳng. Sự phân bố của các trung bình mẫu lại ít nhiều có dạng hình chuông. Điểm quan trọng cần ghi nhớ là dù tổng thể có phân bố chuẩn hay không thì phân bố trung bình mẫu cũng có xu hướng xấp xỉ với đường cong chuẩn thông thường. Điều này có liên quan trực tiếp với định lí giới hạn trung tâm, nghĩa là khi mẫu có kích thước n đủ lớn thì phân bố trung bình mẫu sẽ hướng tới một phân bố chuẩn. Vấn đề là kích thước mẫu như thế nào thì được xem là đủ lớn. Trong thống kê được sử dụng ở đây, khi kích thước mẫu là 30 sẽ được coi là đủ lớn để có thể giả 59 ]54[ −= n s X σ