1. 1
PHẦN II: THỐNG KÊ
--------------------------------------------------------------------------------
CHƯƠNG III -LÝ THUYẾT MẪU
III.1 KHÁI NIỆM VỀ THỐNG KÊ:
Thống kê là một nhánh của toán học liên quan đến việc thu thập, phân tích, diễn giải hay
giải thích và trình bày các dữ liệu. Một số lĩnh vực nghiên cứu sử dụng thống kê ứng dụng
nhiều đến mức mỗi ngành đã đưa ra môn học riêng, còn gọi là “thống kê ngành” như: thống
kê y học, vật lý thống kê, thống kê sinh học, thống kê dân số, thống kê xã hội, thống kê
trong giáo dục học, thống kê trong kinh doanh, kinh tế lượng, phân tích dữ liệu từ phân tích
hóa học, địa lý và hệ thống thông tin địa lý, thống kê độ tin cậy của công nghệ, thống kê
trong thể thao, thống kê bảo hiểm… Trong lĩnh vực xã hội, thống kê đóng vai trò quan
trọng là một công cụ cơ bản quan trọng trong việc nhận thức tình hình và hỗ trợ ra quyết
định.
Thống kê toán ( còn gọi là thống kê lý thuyết) là một nhánh của toán ứng dụng, sử dụng lý
thuyết và phân tích xác suất để nghiên cứu cơ sở lý thuyết của thống kê như các luật phân
phối.
Thống kê ứng dụng bao gồm thống kê mô tả và thống kê suy diễn. Thống kê mô tả được
dùng để tóm tắt dữ liệu, để mô tả mẫu nghiên cứu dưới dạng số hay đồ họa. Các công cụ
thường dùng nhất là trung bình cộng và độ lệch chuẩn. Các công cụ đồ họa bao gồm biểu đồ
và đồ thị. Thống kê suy diễn được dùng để mô hình hóa các kiểu biến thiên trong dữ liệu,
giải thích những biến thiên có vẻ ngẫu nhiên và rút ra kết luận về tổng thể nghiên cứu mà
chúng ta thường không có điều kiện để khảo sát hết.
Việc sử dụng bất kỳ phương pháp thống kê nào cũng chỉ đúng đắn khi tổng thể nghiên cứu
thỏa mãn những giả thiết toán học cần thiết của phương pháp. Việc sử dụng sai dữ liệu
thống kê có thể tạo ra những sai lầm nghiêm trọng trong việc mô tả và diễn giải. Bằng việc
chọn ( hoặc bác bỏ, hoặc thay đổi) một giá trị nào đó, hay việc bỏ đi các giá trị quan sát quá
lớn hoặc quá nhỏ cũng là một cách làm thay đổi kết quả; đôi khi những kết quả thú vị khi
nghiên cứu với mẫu nhỏ lại không còn đúng với mẫu lớn.
Tổng thể thống kê là tập hợp các phần tử thuộc hiện tượng nghiên cứu, cần được quan sát,
thu thập và phân tích theo một hoặc một số đặc trưng nào đó. Các phần tử tạo thành tổng thể
thống kê được gọi là đơn vị tổng thể.
Tài liệu tham khảo:
1. Hoàng Trọng, Chu Nguyễn Mộng Ngọc. Thống kê ứng dụng trong kinh tế- xã hội. NXB LĐ-XH-2011.
2. Hồ Thanh Phong. Xác suất và Thống kê trong Kỹ thuật hệ thống công nghiệp. NXB ĐHQG TP HCM –
2003.
3. PGS.TS. Nguyễn Cao Văn, TS. Trần Thái Ninh. Giáo trình Lý thuyết xác suất và thống kê toán. NXB
ĐHKTQD-2008.
2. 2
Mẫu là một số đơn vị được chọn ra từ tổng thể chung theo một phương pháp lấy mẫu nào
đó. Các đặc trưng mẫu được sử dụng để suy rộng ra các đặc trưng của tổng thể nói chung.
Đặc điểm thống kê (hay dấu hiệu nghiên cứu) là các tính chất quan trọng liên quan trực
tiếp đến nội dung nghiên cứu và khảo sát cần thu thập dữ liệu trên các đơn vị tổng thể. Đặc
điểm thống kê được chia làm 2 loại: đặc điểm thuộc tính và đặc điểm số lượng.
Khái quát quá trình nghiên cứu thống kê:
Xác định vấn đề nghiên cứu, mục tiêu, nội dung,
đối tượng nghiên cứu.
Xây dựng hệ thống các khái niệm, các chỉ tiêu thống kê.
Thu thập các dữ liệu thống kê.
Xử lý số liệu:
- Kiểm tra, chỉnh lý và sắp xếp số liệu.
- Phân tích thống kê sơ bộ.
- Phân tích thống kê thích hợp.
Phân tích và giải thích kết quả.
Báo cáo và truyền đạt kết quả nghiên cứu
Trong mô hình trên, hướng mũi tên từ trên xuống chỉ trình tự tiến hành các công đoạn của
quá trình nghiên cứu. Hướng mũi tên từ dưới lên biểu diễn các công đoạn cần phải kiểm tra
lại, bổ sung thông tin hay phải làm lại nếu chưa đạt yêu cầu.
III.2 MỘT SỐ ĐẶC TRƯNG CỦA TỔNG THỂ:
Số lượng N các phần tử của tổng thể gọi là kích thước tổng thể. Trong trường hợp kích
thước tổng thể quá lớn hay không thể biết được ta coi như kích thước tổng thể là vô hạn.
Để mô tả tổng thể theo một dấu hiệu nghiên cứu nào đó, người ta mô hình hóa dấu hiệu đó
bởi một biến ngẫu nhiên X, gọi là biến ngẫu nhiên gốc. Ta thường gặp các tham số đặc
trưng của tổng thể:
- Trung bình tổng thể: E(X). Trong tài liệu này ta quy ước dùng kí hiệu a hoặc để
biểu thị giá trị của E(X).
3. 3
- Trung bình điều hòa:
VD: Một xí nghiệp có 2 phân xưởng cùng lắp ráp 1 loại sản phẩm. Phân xưởng thứ nhất
lắp ráp 1 sản phẩm hết 15 phút, phân xưởng thứ hai lắp ráp 1 sản phẩm hết 20 phút.
Nếu trong 1 ngày mỗi phân xưởng làm việc 8 giờ thì thời gian trung bình để lắp ráp 1
sản phẩm mh là bao nhiêu?
60 8 960
17,14
60 8 60 8 56
15 20
hm
phút.
- Trung bình nhân:
VD: Trong khoảng thời gian 10 năm, tốc độ tăng giá trị sản lượng của một xí nghiệp
như sau: Có 5 năm tốc độ tăng so với năm trước là 110%; có 2 năm tốc độ tăng là
125% và có 3 năm tốc độ tăng là 115%. Tìm tốc độ tăng trưởng trung bình mg hàng
năm của xí nghiệp trong 10 năm đó.
5 2 210
(1,1) (1,25) (1,15)gm
Suy ra
1
ln 5ln(1,1) 2ln(1,25) 3ln(1,15)
10
gm , và mg = 1,144 hay 114,4%.
- Phương sai tổng thể: D(X). Ta quy ước dùng kí hiệu 2
để biểu thị giá trị của D(X).
Khi đó độ lệch chuẩn của tổng thể D(X) được kí hiệu là .
- Tỉ lệ tổng thể: Nếu dấu hiệu nghiên cứu mang tính chất định tính thì người ta coi X
có phân phối không – một. Tỉ lệ tổng thể chính là xác suất lấy ngẫu nhiên một phần
tử thì phần tử đó mang dấu hiệu nghiên cứu. Quy ước kí hiệu tỉ lệ tổng thể là p.
III.3 MẪU NGẪU NHIÊN 1 CHIỀU:
III.3.1 TỔNG QUAN:
Trong thực tế, phương pháp nghiên cứu toàn bộ tổng thể chỉ áp dụng được với các tập hợp
có qui mô nhỏ, còn chủ yếu người ta áp dụng phương pháp nghiên cứu không toàn bộ, đặc
biệt là phương pháp chọn mẫu. Nếu mẫu được chọn ra một cách ngẫu nhiên và xử lý bằng
các phương pháp xác suất thì thu được kết luận một cách nhanh chóng, đỡ tốn kém mà vẫn
đảm bảo độ chính xác cần thiết.
Có 2 phương pháp để lấy một mẫu có n phần tử : lấy có hoàn lại và lấy không hoàn lại.
Nếu kích thước mẫu rất bé so với kích thước tổng thể thì hai phương pháp này được coi là
cho kết quả như nhau. Ta luôn giả định rằng các phần tử được lấy vào mẫu theo phương
thức có hoàn lại và mỗi phần tử của tổng thể đều được lấy vào mẫu với khả năng như nhau.
Mẫu ngẫu nhiên kích thước n là tập hợp của n biến ngẫu nhiên độc lập
X1 , X2 , .., Xn được thành lập từ biến ngẫu nhiên X của tổng thể nghiên cứu và có cùng
quy luật phân phối xác suất với X.
Kí hiệu của mẫu ngẫu nhiên kích thước n là : W = (X1 , X2 , .., Xn )
với E(Xi) = E(X) = a; D(Xi ) = D(X) = 2
, i.
4. 4
Việc thực hiện một phép thử đối với mẫu ngẫu nhiên W chính là thực hiện một phép thử
đối với mỗi thành phần Xi. Giả sử X1 nhận một giá trị cụ thể là x1; X2 nhận giá trị x2; …, Xn
nhận giá trị xn thì w = ( x1, x2 , .., xn ) tạo thành 1 giá trị cụ thể của mẫu ngẫu nhiên , hay
còn gọi là mẫu cụ thể.
Các phương pháp chọn mẫu :
Bao gồm mẫu giản đơn; mẫu hệ thống ; mẫu chùm; mẫu phân tổ; mẫu nhiều cấp.
(SV đọc tài liệu để phân biệt và biết ứng dụng khi cần thực hành)
Thang đo các giá trị mẫu :
Để biểu diễn các giá trị của dấu hiệu nghiên cứu trong tổng thể cũng như trong mẫu,
ta phải dùng các thang đo khác nhau nhằm mục đích lượng hóa dấu hiện nghiên cứu đó.
Trong kinh tế xã hội, các thang đo được sử dụng theo cấp độ từ thấp đến cao là : thang định
danh; thang thứ bậc; thang đo khoảng; thang đo tỉ lệ.
( SV đọc tài liệu để phân biệt và biết ứng dụng khi cần thực hành).
Các phương pháp mô tả số liệu mẫu :
Bao gồm bảng phân phối tần số thực nghiệm; bảng phân phối tần suất thực nghiệm;
hàm phân bố thực nghiệm; Một số loại đồ thị như đa giác đồ , đa giác tần số, đa giác tần
suất, biểu đồ tần số, biểu đồ tần suất …
Có rất nhiều phần mềm máy tính có chức năng thống kê được dùng để mô tả số liệu
mẫu như Excel, SPSS, MFIT , Stata….
( SV đọc tài liệu để phân biệt và biết ứng dụng khi cần thực hành).
III.3.2 MỘT SỐ ĐẶC TRƯNG CỦA MẪU:
Từ một mẫu ngẫu nhiên W= ( X1 , X2 , .., Xn ) thì chỉ có thể có một vài kết luận sơ bộ
và rời rạc về biến ngẫu nhiên gốc X của tổng thể, vì các giá trị Xi của mẫu có cùng phân
phối với X, song quy luật này thường chưa xác định được hoàn toàn. Nhưng nếu tổng hợp
các biến ngẫu nhiên này lại thì theo quy luật số lớn thì chúng sẽ bộc lộ những quy luật mới
làm cơ sở để nhận định về biến ngẫu nhiên gốc.
Việc tổng hợp mẫu W= ( X1 , X2 , .., Xn ) dưới dạng một hàm nào đó của các giá trị
X1 , X2 , .., Xn gọi là thống kê, và kí hiệu G = f( X1 , X2 , .., Xn ). Bản thân G cũng là một
biến ngẫu nhiên tuân theo một quy luật phân phối xác suất nhất định và có các tham số đặc
trưng. Đồng thời khi mẫu ngẫu nhiên nhận 1 giá trị cụ thể
w = ( x1, x2 , .., xn ) thì G cũng nhận một giá trị cụ thể là g = f( x1, x2 , .., xn ).
Một số thống kê đặc trưng mẫu thường dùng trong chương trình:
- Trung bình mẫu :
n
i
i=1
1
X= X
n
Tính chất : E(X)=E(X)=μ và
2
D(X) σ
D(X)= =
n n
5. 5
- Phương sai mẫu :
n12
2
i
i=1
1
S (X -X)
n
ct
. Độ lệch mẫu : S
- Phương sai mẫu hiệu chỉnh:
n 2
2 2
i
i=1
1 n
S = (X -X) = S
n-1 n-1
.
Độ lệch mẫu hiệu chỉnh : S.
- Tỉ lệ mẫu :
m
F=
n
là tần suất xuất hiện phần tử có dấu hiện nghiên cứu trong mẫu.
Khi mẫu ngẫu nhiên nhận 1 giá trị cụ thể w = ( x1, x2 , .., xn ) được mô tả bởi bảng phân
phối tần số thực nghiệm:
Các giá trị của Xi x1 x2 … xk
Tần số tương ứng n1 n2 … nk và
1
k
i
i
n n
thì các đặc trưng mẫu nhận giá trị tương ứng được tính theo các công thức sau:
1
1 n
i
i
x x
n
hay
1
1 k
i i
i
x n x
n
(*)
22
2 2
1
1
( )
n
i
i
s x x x x
n
hay
22
2
1
1 k
i i
i
s n x x
n
(*)
2 2
1
1
( )
1
n
i
i
s x x
n
hay
2
2
1
n
s s
n
(*)
Ở phần thống kê một biến trong máy tính bỏ túi Casio:
Kí hiệu cho giá trị của s thường là n hay xn;
Kí hiệu cho giá trị của s thường là n-1 hay xn-1.
III.3.3 QUY LUẬT PHÂN PHỐI XÁC SUẤT CỦA MỘT SỐ ĐẶC TRƯNG MẪU
1- Phaân phoái xaùc suaát cuûa tyû leä maãu
Vì E(F) = p vaø
n
pq
FD )( neân theo ñònh lyù 4.5 chöông 4 (xem giaùo trình
XS) thì vôùi n30 ta coù theå coi ),(~
n
pq
pNF .
Vôùi moät maãu cuï theå kích thöôùc n, tyû leä maãu f, ta coù p f, neân:
)
)1(
,(~
n
ff
pNF
hay
( )
~ (0,1)
(1 )
F p n
N
f f
6. 6
2- Phaân phoái xaùc suaát cuûa trung bình maãu
Vì
n
XDaXD
2
)(,)(
neân neáu toång theå coù phaân phoái chuaån thì
),(~
2
n
aNX
hay )1,0(~ Nn
aX
Neáu n 30 thì vôùi moät maãu cuï theå kích thöôùc n ta coù 22
s
Do ñoù ),(~
2
n
s
aNX hay ~ (0,1)
X a
n N
s
trong ñoù s2
laø phöông sai maãu hieäu chænh cuûa moät maãu kích thöôùc n baát kyø.
Tröôøng hôïp n < 30, toång theå coù phaân phoái chuaån, ta coù
~ ( 1)
X a
n T n
s
3- Phaân phoái xaùc suaát cuûa phöông sai maãu
Neáu toång theå coù phaân phoái chuaån thì ta coù
2
2 2 2
2 2 2
1
1 1
( ) ~ ( 1)
n
i
i
nS n
S X X X n